Le document numérique»Nature, accès et médiation des documents dans un contexte numérique
Appréhender un document»   Le document comme objet, comme contenu, comme dispositif de lecture, comme    support2         ...
Qu’est-ce qu’un document ?    Tablette d’argile :    textes juridiques    ou comptables            Rouleau de papyrus :   ...
Qu’est-ce qu’un document ?                             Films                              Fiches4                         ...
Qu’est-ce qu’un document ?                        Contenu/contenant                        Lecture et dispositif de lectur...
Qu’est-ce qu’un document ?    Contenu/contenant    Lecture et dispositif    de lecture6                            Luc Bel...
Qu’est-ce qu’un document ?                             Un système de                             valeurs autour des       ...
Organiser les documents                          Les ranger,                          les trouver,                        ...
Produire les documents9                        Luc Bellier 2013
Introduction»    Nature et structure du document numérique       La notion de document : d’une définition formelle à une ...
Le document numérique»    Nature et structure du document numérique : La notion de document11                             ...
Nature et structure du document numérique»    La notion de document»    Définition ISO (International Organisation for Sta...
Nature et structure du document numérique»    La notion de document       « Tout est document pourvu qu’il soit le témoin...
Nature et structure du document numérique»    La notion de document»    Le document ne peut être dissocié de ses environne...
Le document numérique       Nature et structure du document numérique : les formats de          fichiers15                ...
Nature et structure du document numériqueLes formats de fichiers16                                          Luc Bellier 2013
Nature et structure du document numériqueLes formats de fichiers1717                                          Luc Bellier ...
Nature et structure du document numériqueLes formats de fichiers18                                          Luc Bellier 2013
Nature et structure du document numériqueLes formats de fichiers»    Formats des documents numériques»    Convention utili...
Nature et structure du document numériqueLes formats de fichiers                                            Métadonnées20 ...
Nature et structure du document numériqueLes formats de fichiers                                            Métadonnées21 ...
Nature et structure du document numériqueLes formats de fichiers                                            Métadonnées22 ...
Le document numérique»    Nature et structure du document numérique : la granularité23                                    ...
Nature et structure du document numérique     La granularité des documents numériques         Collection                  ...
Le document numérique»    Nature et structure du document numérique       La notion de document : d’une définition formel...
Le document numérique»    Produire et décrire le document numérique : le cas de la numérisation26                         ...
Produire et décrire le document numérique»       Le cas de la numérisation       Sélection      Acquisition               ...
Produire et décrire le document numérique»         Le cas de la numérisation                                              ...
Produire et décrire le document numérique»        Le cas de la numérisation                                               ...
Produire et décrire le document numérique»        Le cas de la numérisation                                           Pour...
Produire et décrire le document numérique»        Le cas de la numérisation             Capture du document par un signal...
Produire et décrire le document numérique»        Le cas de la numérisation     »     Processus               • Passage d’...
Produire et décrire le document numérique»    Le cas de la numérisation                  •NUMERISATION                    ...
Produire et décrire le document numérique»        Le cas de la numérisation                                               ...
Produire et décrire le document numérique»        Le cas de la numérisation    »     Caractéristiques générales           ...
Produire et décrire le document numérique»        Le cas de la numérisation    »     Images en noir et blanc            2...
Produire et décrire le document numérique»        Le cas de la numérisation    »     Images en niveaux de gris           ...
Produire et décrire le document numérique»        Le cas de la numérisation    »     Images en couleur RVB            16,...
Produire et décrire le document numérique»        Le cas de la numérisation    »     La compression    »     Plus une imag...
Produire et décrire le document numérique»        Le cas de la numérisation                                    Format de c...
Format de compression JPEG»        Le cas de la numérisation                                              codage          ...
Produire et décrire le document numérique»        Le cas de la numérisation                                     Kirtas APT...
Produire et décrire le document numérique»        Le cas de la numérisation                      Digibook 2000LC          ...
Produire et décrire le document numérique»        Le cas de la numérisation                                            Mic...
Produire et décrire le document numérique»        Le cas de la numérisation             Docuscan 6000                     ...
Produire et décrire le document numérique»        Le cas de la numérisation                                               ...
Produire et décrire le document numérique»        Le cas de la numérisation    »     Les formats d’image…            ouve...
Produire et décrire le document numérique»        Le cas de la numérisation             La numérisation en mode texte    ...
Produire et décrire le document numérique»        Le cas de la numérisation    »     Les techniques de création du mode te...
Produire et décrire le document numérique»        Le cas de la numérisation    L’OCR et le mode texte    »     L’OCR est u...
Produire et décrire le document numérique»        Le cas de la numérisation    L’OCR et le mode texte    »     Les formats...
Produire et décrire le document numérique»        Le cas de la numérisation                                     (http://ww...
Produire et décrire le document numérique»        Le cas de la numérisation         »    (http://www.persee.fr)           ...
Produire et décrire le document numérique»        Le cas de la numérisation                                Visualisation d...
Produire et décrire le document numérique»        Le cas de la numérisation                                          METAD...
Produire et décrire le document numérique»        Le cas de la numérisation                                               ...
Produire et décrire le document numérique»        Le cas de la numérisation    57                                         ...
Produire et décrire le document numérique»        Le cas de la numérisation                                               ...
Produire et décrire le document numérique»        Le cas de la numérisation    »     Des données sur les données ...      ...
Produire et décrire le document numérique»        Le cas de la numérisation           • Les métadonnées descriptives :    ...
Produire et décrire le document numérique»        Le cas de la numérisation            • Du catalogage aux métadonnées    ...
Produire et décrire le document numérique»        Le cas de la numérisation           • Une tradition dans les bibliothèqu...
Produire et décrire le document numérique»        Le cas de la numérisation                                               ...
Produire et décrire le document numérique»        Le cas de la numérisation                                               ...
Produire et décrire le document numérique»        Le cas de la numérisation                                               ...
Produire et décrire le document numérique»        Le cas de la numérisation             Métadonnées de             structu...
Produire et décrire le document numérique»        Le cas de la numérisation                                               ...
Produire et décrire le document numérique»        Le cas de la numérisationMétadonnéesdescriptives :Métadonnées destructur...
Produire et décrire le document numérique»        Le cas de la numérisation                  Refnum                       ...
Le document numérique»    Nature et structure du document numérique       La notion de document : d’une définition formel...
Le document numérique       Produire et décrire le document numérique : le cas des ePub          et livres numériques71   ...
Produire et décrire le document numérique»        Le cas des livres numériques ePub         Métadonnées         Descriptiv...
Produire et décrire le document numérique»        Le cas des livres numériques ePub     Métadonnées de     structure ?    ...
Produire et décrire le document numérique»        Le cas des livres numériques ePub                Refnum                 ...
Produire et décrire le document numérique»        Le cas des livres numériques ePub                                       ...
Le document numérique       Les identifiants76                        Luc Bellier 2013
Produire et décrire le document numérique»        Les identifiants           • Une référence stable :                – nom...
Produire et décrire le document numérique»        Les identifiants    »     On dispose de standards pour identifier les do...
Produire et décrire le document numérique»        Les identifiants          Catalogue : visualiseur.bnf.fr                ...
Produire et décrire le documents numérique»        Conclusion    »     Un document numérique cest            Des fichiers...
Produire et décrire le document numérique»        Conclusion                                                              ...
Upcoming SlideShare
Loading in …5
×

Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

4,885 views
4,713 views

Published on

Published in: Education
0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,885
On SlideShare
0
From Embeds
0
Number of Embeds
60
Actions
Shares
0
Downloads
109
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

Le document numérique - cours IUT Métiers du livre de Saint Cloud - part1_2013

  1. 1. Le document numérique»Nature, accès et médiation des documents dans un contexte numérique
  2. 2. Appréhender un document» Le document comme objet, comme contenu, comme dispositif de lecture, comme support2 Luc Bellier 2013
  3. 3. Qu’est-ce qu’un document ? Tablette d’argile : textes juridiques ou comptables Rouleau de papyrus : textes sacrés3 Luc Bellier 2013
  4. 4. Qu’est-ce qu’un document ? Films Fiches4 Luc Bellier 2013
  5. 5. Qu’est-ce qu’un document ? Contenu/contenant Lecture et dispositif de lecture5 Luc Bellier 2013
  6. 6. Qu’est-ce qu’un document ? Contenu/contenant Lecture et dispositif de lecture6 Luc Bellier 2013
  7. 7. Qu’est-ce qu’un document ? Un système de valeurs autour des documents, symboliques et économiques.7 Luc Bellier 2013
  8. 8. Organiser les documents Les ranger, les trouver, les décrire8 Luc Bellier 2013
  9. 9. Produire les documents9 Luc Bellier 2013
  10. 10. Introduction» Nature et structure du document numérique  La notion de document : d’une définition formelle à une approche par écosystème  Les types de fichiers : Les formats textes, les formats images, les formats multimédia  La granularité du document, structuration et déstructuration» Produire et décrire le document numérique  Le cas de la numérisation  Le cas des de ePub  Les identifiants» Les métadonnées  Les métadonnées pour la recherche • Le cas des catalogues • Le cas des moteurs • Approche sémantique  Les métadonnées comme point d’accès • Accès centralisés (catalogue et/ou moteur) • Accès distribués fermés et ouverts (OAI, RSS et OPDS) • L’interopérabilité sémantique • Les nouvelles métadonnées (folksonomies) • Multiplier les accès et multiplier les documents» Les enjeux des accès et de la médiation:  Maitrise de la chaîne et des formats  Longue traine et économie de l’attention  Appréhender la collection numérique : le cas des bibliothèques  La médiation autour des documents numériques10 Luc Bellier 2013
  11. 11. Le document numérique» Nature et structure du document numérique : La notion de document11 Luc Bellier 2013
  12. 12. Nature et structure du document numérique» La notion de document» Définition ISO (International Organisation for Standardization) • Ensemble formé par un support et une information généralement enregistré de façon permanente et tel qu’il puisse être lu par l’homme ou la machine» Vocabulaire de la documentation • Ensemble d’un support d’information, quel qu’il soit, des données enregistrées sur ce support et de leur signification, servant à la consultation, l’étude, la preuve ou la trace etc. : livre, échantillon de parfum, tissus, film…Le tout constitue une unité autonome.12 Luc Bellier 2013
  13. 13. Nature et structure du document numérique» La notion de document  « Tout est document pourvu qu’il soit le témoin d’un savoir inscrit dans un système documentaire » Suzanne Briet 1951  Le vu, le lu, le su (Jean-Michel Salaün) • Le vu : la forme, le support • Le lu : le texte, le contenu, le fond • Le su : le medium, l’attention, le système d’échange» http://lafeuille.blog.lemonde.fr/2011/09/13/les-trois-dimensions-de-leconomie-de-la-publication/» http://blogues.ebsi.umontreal.ca/jms/index.php/13 Luc Bellier 2013
  14. 14. Nature et structure du document numérique» La notion de document» Le document ne peut être dissocié de ses environnements :  Fond, forme, destination font parti intégrante du document si celui-ci doit s’inscrire dans un système (documentaire, d’échanges etc.)  En ce sens le document doit toujours être interrogé pour ce qu’il est dans ces trois dimensions, et traité en conséquence : • La diffusion (médium) • La forme (description, reproduction, déclinaisons de différents supports etc.) • Le fond (la pertinence du contenu au regard des deux autres dimensions)1414 Luc Bellier 2013
  15. 15. Le document numérique Nature et structure du document numérique : les formats de fichiers15 Luc Bellier 2013
  16. 16. Nature et structure du document numériqueLes formats de fichiers16 Luc Bellier 2013
  17. 17. Nature et structure du document numériqueLes formats de fichiers1717 Luc Bellier 2013
  18. 18. Nature et structure du document numériqueLes formats de fichiers18 Luc Bellier 2013
  19. 19. Nature et structure du document numériqueLes formats de fichiers» Formats des documents numériques» Convention utilisée pour représenter des données sous forme binaire  Image, texte, son...  Peut contenir des métadonnées» Un format peut avoir plusieurs versions  PDF/A , PDF 1.4…» Un format peut avoir différents profils dapplication  Plusieurs « couches » possibles (formats capsules ou enveloppes)  Compression» Formats propriétaires / ouverts / libres19 Luc Bellier 2013
  20. 20. Nature et structure du document numériqueLes formats de fichiers Métadonnées20 Luc Bellier 2013
  21. 21. Nature et structure du document numériqueLes formats de fichiers Métadonnées21 Luc Bellier 2013
  22. 22. Nature et structure du document numériqueLes formats de fichiers Métadonnées22 Luc Bellier 2013
  23. 23. Le document numérique» Nature et structure du document numérique : la granularité23 Luc Bellier 2013
  24. 24. Nature et structure du document numérique La granularité des documents numériques Collection Document Vue de Volume, tome, détail (notice bibliographique) fascicule... Page (article) Un document complexe peut avoir plusieurs niveaux d’accès ou niveaux de granularité  Document simple : pas de problème de structure en soi, mais peut tout de même avoir plusieurs niveaux d’accès Lot Vue de (notice Image Collection bibliographique détail ) (légende)24 Luc Bellier 2013
  25. 25. Le document numérique» Nature et structure du document numérique  La notion de document : d’une définition formelle à une approche par écosystème  Les types de fichiers : Les formats textes, les formats images, les formats multimédia  La granularité du document, structuration et déstructuration» Produire et décrire le document numérique  Le cas de la numérisation  Le cas des de ePub  Les identifiants» Les métadonnées  Les métadonnées pour la recherche • Le cas des catalogues • Le cas des moteurs • Approche sémantique  Les métadonnées comme point d’accès • Accès centralisés (catalogue et/ou moteur) • Accès distribués fermés et ouverts (OAI, RSS et OPDS) • L’interopérabilité sémantique • Les nouvelles métadonnées (folksonomies) • Multiplier les accès et multiplier les documents» Les enjeux des accès et de la médiation:  Maitrise de la chaîne et des formats  Longue traine et économie de l’attention  Appréhender la collection numérique : le cas des bibliothèques  La médiation autour des documents numériques25 Luc Bellier 2013
  26. 26. Le document numérique» Produire et décrire le document numérique : le cas de la numérisation26 Luc Bellier 2013
  27. 27. Produire et décrire le document numérique» Le cas de la numérisation Sélection Acquisition Relecture encodage Prestataire Signalement En mode texte Mise en Prestataire Indexation ligne Numérisation Prestataire En mode image structuration Contrôle transformation http://www.bnf.fr/fr/collections_et_services/bibliotheques_numeriques_gallica/a.numerisation_masse_bnf.html Compétences Compétences Pas de compétences bibliothéconomiques techniques particulières27 Luc Bellier 2013
  28. 28. Produire et décrire le document numérique» Le cas de la numérisation 00100000001000000010000000110001001100100011000000100000001 d’une collection 00000001000000010000000110101001110000010000000100000001101 Constitution Sélection 01001000000010000000100000001100010011100100111000001100010 01011010011000000111001001011010011001100110000010101000011 » Sélection 00010011010000111010001100100011001000111010001100000011000 Collecte / production 10010111000110110001100100011100101011010001000000010000000 10000000110011001110000011100100111000001011100011011100110 » Acquisition 00000100000001000000010000000110010001100110011010100110010 Description : Métadonnées / 00101110001101000011010100100000001000000010000000100000001 Gestion d’une 00000001011010011000100101110001101100011011000100000001000 collection » Description : 00001000000010110100110111001011100110111001100100010000000 indexation 10000000101101001100010011100000101110001101100011000100100 Catalogage 00000100000001011010011100000110000001011000110000001100000 Préparation à la 01000000010000000101101001110000011000000101110001100000011 00000010000000100000001000000011000100100000001000000011010 » Préparation à la d’une collection 00011001100100000001000000010000000111001001000000010000000 conserrvatopn Rangement et consultation : Empaquetage 10000000100000001110010011100000111001001011100011010000110 01000100000001000000010000000100000001000000011000100110110 » consultation : 00101110001100000011001000100000001000000010000000100000001 Équipement Gestion 00000001101010011001100101110001110000011001100100000001000 00001000000010000000100000001101010011011000101110001101100 01100100010000000100000001000000010000000100000001000000011 01000010111000111000001100010010000000100000001000000010000 » Magasinage Préservation 00011011100111001001100110010111000110101001110000010000000 10000000100000001000000010000000100000001100110010111000110 01100110100000010100010000000100000001000000011000100110010 d’une collection » Conservation Accès 00110000001000000010000000100000001000000011010100111000001 Consultation 00000001000000011010100100000001000000010000000110001001110 01001110000011000100101101001100000011100100101101001100110 » Communication Valorisation 01100000101010000110001001101000011101000110010001100100011 10100011000000110101001011100011011100111000001110000101101 00010000000100000001000000011001100111000001110010011010000 » Valorisation 10111000110110001101000010000000100000001000000011001000110 10100110100001101100010111000111000001110000010000000100000 0010000000100000001000000100000001011010011100000110000001028 Luc Bellier 2013
  29. 29. Produire et décrire le document numérique» Le cas de la numérisation Numériser en mode image  La numérisation en mode image s’intéresse à la forme et donc à la structure physique  Avantages :  un fac-similé  préserve l’intégrité de l’original  Inconvénients :  un seul point d ’accès : la notice bibliographique  pas de possibilités de manipulation du texte  poids des images > stockage, temps de téléchargement  mise en place de chaînes de numérisation complexes 29 Luc Bellier 2013
  30. 30. Produire et décrire le document numérique» Le cas de la numérisation Pour produire Pour visualiser Pour archiver 30 Luc Bellier 2013
  31. 31. Produire et décrire le document numérique» Le cas de la numérisation Capture du document par un signal lumineux analyse de l’intensité lumineuse par un capteur CDD (charged- coupleddevice) une seule analyse pour le noir et blanc analyse de 3 faisceaux lumineux séparés par un prisme et des filtres rouges, verts et bleus (RVB) pour des documents en couleur conversion en signal électrique binaire selon une grille propre au mode de codage Production du fichier bitmap 31 Luc Bellier 2013
  32. 32. Produire et décrire le document numérique» Le cas de la numérisation » Processus • Passage d’un support physique à un état dit dématérialisé • Changement de mode de codage : passage d’un mode de codage analogique à un codage numérique – Information analogique : le signal est continu => onde lumineuse – Information numérisée : représentée par un échantillon de valeurs du signal analogique et codé à l’aide de numéraux (0 ou 1) Échelle 16 bits Échelle 2 bits » Caractéristiques techniques • Ces changements se font par un processus technologique : la numérisation et à l’aide d’un matériel spécifique : le numériseur (ou scanner) • Le fichier résultant de la numérisation est un fichier bitmap 32 32 Luc Bellier 2013
  33. 33. Produire et décrire le document numérique» Le cas de la numérisation •NUMERISATION •RESTITUTION •0000000000 •0001110000 •0010001100 •0100000100 •1000000010 •1111111111 •1000000000 •1000000000 •0100000010 •0010000100 •0001111000 •In Mémoires optiques / Catherine Leloup. – Paris : EME, 1987. Le nombre de points par pouce ou DPI (1 inch = 2,54 cm) détermine la résolution et donc la qualité de l’image mais aussi le poids du fichier Le nombre d’information par point (noir et blanc, niveaux de gris ou couleurs) Le mode de compression La taille de l’image est fonction de ces trois paramètresLuc Bellier2012 33 Luc Bellier 2013
  34. 34. Produire et décrire le document numérique» Le cas de la numérisation •(*) Les imprimantes couleur utilisent le modèle CMJN (cyan, magenta, jaune et noir) qui est celui de l’imprimerie en quadrichromie. Type d’image Nbre de bits Valeurs codées Remarques 2 noir = 1 utilisé pour le texte noir et blanc blanc = 0 avec des niveaux de 8 256 niveaux utilisé pour les documents iconographiques gris de gris noir et blanc 3x8 3 x 256 niveaux par 3 couleurs : rouge/vert/bleu couleur analyse couleur soit 16,4 (codage utilisé par les moniteurs et les RVB(*) millions de couleurs téléviseurs) 34 Luc Bellier 2013
  35. 35. Produire et décrire le document numérique» Le cas de la numérisation » Caractéristiques générales • reproduction à l’identique, fac-simile • volume des fichiers très important, ce qui a un impact sur : - le choix des supports de stockage - les possibilités et les temps de transmission par réseau • un seul point d’accès, la notice bibliographique • pas de manipulations du texte, document non modifiable (pas d’accès au contenu) • mise en place de chaînes de numérisation complexes » Qualité • La qualité et la lisibilité du document numérique restitué est variable selon : - l’état initial du document - la résolution retenue - les performances du numériseur (scanner) et le niveau du réglage des contrastes 35 Luc Bellier 2013
  36. 36. Produire et décrire le document numérique» Le cas de la numérisation » Images en noir et blanc  2 tons = 1 bit par point (8 bits = 1 octet)  Format TIFF (1 image par page, 1 fichier par page)  Résolution 300 à 600 dpi (300 à 600 points par pouce => définition)  Image légère et lisible, adaptée à la lecture à l’écran des imprimés Zoom 400% image noir et blanc 300 dpi Zoom 100% image noir et blanc 300 dpi 36 36 Luc Bellier 2013
  37. 37. Produire et décrire le document numérique» Le cas de la numérisation » Images en niveaux de gris  256 tons = 8 bits par point  Format TIFF V6 monopage (depuis 2006)  Format JFIF compressé JPEG (avant 2006)  Résolution 300 à 600 dpi  Image fine et assez lourde (presse, ouvrages de mauvaise qualité) Zoom 400% image niveau de gris 300 dpi Zoom 100% image niveau de gris 300 dpi 37 Luc Bellier 2013
  38. 38. Produire et décrire le document numérique» Le cas de la numérisation » Images en couleur RVB  16,7 millions de tons = 24 bits par point ;  profil colorimétrique Adobe 98  Format TIFF  Résolution 300 à 600 dpi  Format lourd utilisé pour garder la couleur des originaux si cela se justifie. Zoom 400% image couleur 300 dpi Zoom 100% image couleur 300 dpi 38 Luc Bellier 2013
  39. 39. Produire et décrire le document numérique» Le cas de la numérisation » La compression » Plus une image est de bonne qualité plus elle est lourde. La compression peut permettre de diminuer fortement le poids d’une image sans abaisser dans les mêmes proportions la qualité. » Elle permet de réduire la taille des fichiers en supprimant des pixels ou des couleurs  Compression sans perte  Compression avec perte » Les formats engendrant des pertes de données irréversibles sont à éviter lorsque l’on veut assurer la sauvegarde à long terme des images Zoom 400% image couleur 300 dpi Zoom 100% image couleur 300 dpi agrandi dans la présentation 39 Luc Bellier 2013
  40. 40. Produire et décrire le document numérique» Le cas de la numérisation Format de compression IUT Groupe 4 Codage ligne par ligne puis corrélation des lignes entre elles Les lignes qui se suivent se ressemblent, on va donc procéder à un codage relatif ou prédictif d’une ligne à l’autre Bidirectionnelle(Read modifié) Taux les plus fréquents : 8 à 20 40 40 Luc Bellier 2013
  41. 41. Format de compression JPEG» Le cas de la numérisation codage compression restitution Paramétrage du taux de qualité (0 à 100%) Pour un taux = 80%) la compression est comprise entre 5 et 10 Utilisé pour les images 8 bits et 24 bits 41 Luc Bellier 2013
  42. 42. Produire et décrire le document numérique» Le cas de la numérisation Kirtas APT 2400 42 Luc Bellier 2013
  43. 43. Produire et décrire le document numérique» Le cas de la numérisation Digibook 2000LC Copybook Suprascan A0 43 Luc Bellier 2013
  44. 44. Produire et décrire le document numérique» Le cas de la numérisation Microfiches Microfilms 44 Luc Bellier 2013
  45. 45. Produire et décrire le document numérique» Le cas de la numérisation Docuscan 6000 Plus de 6000 pages/heure 45 Luc Bellier 2013
  46. 46. Produire et décrire le document numérique» Le cas de la numérisation Redressement Recadrage des pages Illustrations Binarisation(transfor mation des images de niveau de gris et couleur en noir et blanc) Filtrage des formes (redressement des blancs, des lignes, des caractères à l’intérieur d’une image) 46 Luc Bellier 2013
  47. 47. Produire et décrire le document numérique» Le cas de la numérisation » Les formats d’image…  ouverts et libres • SVG Format de diffusion dans Gallica • PNG • Jpeg2000  ouverts et propriétaires • TIFF Formats de numérisation BnF 47 Luc Bellier 2013
  48. 48. Produire et décrire le document numérique» Le cas de la numérisation  La numérisation en mode texte s’intéresse directement au contenu et donc à la structure logique  Avantages  recherche plein texte et autres manipulations  souplesse et portabilité  Accessibilité pour les personnes en situation de handicap visuel  Inconvénients  lourdeur de réalisation  coût 48 Luc Bellier 2013
  49. 49. Produire et décrire le document numérique» Le cas de la numérisation » Les techniques de création du mode texte :  reconnaissance automatique de caractères ou OCR • fortement conditionnée par la qualité de numérisation • problèmes : caractères anciens, mal formés, caractères spéciaux, titres… • correction manuelle obligatoire  la saisie • saisie manuelle : problème de ressources humaines ! • double saisie manuelle comparée 49 Luc Bellier 2013
  50. 50. Produire et décrire le document numérique» Le cas de la numérisation L’OCR et le mode texte » L’OCR est un processus automatique » La qualité comme la reconnaissance sont calculés par des machines » C’est le nombre de caractères suspects divisés par le nombre total de caractères sur une page. » Une page de dix caractères vaut autant qu’une page de 10000 caractères dans un même ouvrage. 50 Luc Bellier 2013
  51. 51. Produire et décrire le document numérique» Le cas de la numérisation L’OCR et le mode texte » Les formats d’encodage du texte (basés sur XML)…  Structure logique Format de production • TEI et tdmNum  Structure physique Format de production • ALTO • HTML Formats de consultation51 51 Luc Bellier 2013
  52. 52. Produire et décrire le document numérique» Le cas de la numérisation (http://www.bium.univ-paris5.fr/histmed/medica.htm) Liste des chapitres en mode texte Pages en mode image 52 Luc Bellier 2013
  53. 53. Produire et décrire le document numérique» Le cas de la numérisation » (http://www.persee.fr) Mode image Mode texte (OCR de très bonne qualité, documents récents) 53 Luc Bellier 2013
  54. 54. Produire et décrire le document numérique» Le cas de la numérisation Visualisation du mode image uniquement, mode texte issu d’OCR en sous-couche permettant la recherche plein texte et le surlignage des résultats de la recherche (http://books.google.fr/) 54 Luc Bellier 2013
  55. 55. Produire et décrire le document numérique» Le cas de la numérisation METADONNEES 55 Luc Bellier 2013
  56. 56. Produire et décrire le document numérique» Le cas de la numérisation Un document numérique / électronique, c’est une suite de fichiers sans lien entre eux identifiant unique (localisation / identification) Métadonnées ? ? Métadonnées ? Métadonnées administratives descriptives de structure •gérer la collection, c’est-à-dire •rattacher le document •rattacher les à l’original / différentes •gérer les droits d’accès fichiers entre eux versions d’un •préserver les informations techniques document •reconstituer la nécessaires à la lecture des fichiers structure du •donner accès à la document •garantir l ’intégrité des fichiers et le suivi de copie numérique / leurs éventuelles modifications électronique 56 Luc Bellier 2013
  57. 57. Produire et décrire le document numérique» Le cas de la numérisation 57 Luc Bellier 2013
  58. 58. Produire et décrire le document numérique» Le cas de la numérisation Meta descriptives image et de structure 000001.tif ID.xml Texte Table Alto 000001.xml TID.xml •Une image par page donc deux fichiers par page •Un fichier xml de structure par document et éventuellement un fichier table des matière. •Le fichier de structure porte également des données descriptive pour le lien avec le catalogue 58 Luc Bellier 2013
  59. 59. Produire et décrire le document numérique» Le cas de la numérisation » Des données sur les données ...  qui servent à organiser la connaissance et à utiliser et exploiter le document • Métadonnées descriptives, contextuelles et structurelles - Ex. : Notice bibliographique, indexation - Ex. : Date et formats de numérisation - Ex. : Données sur les fichiers pour reconstituer l’ouvrage (Cf. plus loin) • initiales et ajoutées tout au long du cycle de vie du document numérisé  qui servent à le maintenir accessible dans le temps et à garantir et contrôler cet accès • Métadonnées administratives et techniques - Ex. : Droits de lecture en interne seulement ou droit sur Internet • initiales et ajoutées tout au long du cycle de vie du document numérisé - Ex. : passage d’un document protégé dans le domaine public 59 Luc Bellier 2013
  60. 60. Produire et décrire le document numérique» Le cas de la numérisation • Les métadonnées descriptives : – appréhender le contenu d’un objet • description bibliographique approfondie et détaillée – identifier un objet ou un groupe d’objets • description bibliographique minimale • identifiant pérenne – identifier les parties qui composent un objet • information de structure – échanger des objets ou des descriptions d’objets • description bibliographique dans un format normalisé 60 Luc Bellier 2013
  61. 61. Produire et décrire le document numérique» Le cas de la numérisation • Du catalogage aux métadonnées – les métadonnées • une description d’un objet matériel ou non, les métadonnées peuvent être dans le document lui-même • multiplication des « points d’accès », information structurée • une localisation : URL / URN / URI • De « nouveaux » formats – pour les notices : Dublin Core, EAD + formats dérivés de MARC en XML (MarcXML, MODS, BiblioML) – nouveau : pour le contenu des documents eux-mêmes • autrefois on n’entrait pas « dans » le document • nouveaux besoins : OCR, tables des matières en saisie, structure du défilement des pages… • nouveau formats : TEI, METS, ALTO 61 Luc Bellier 2013
  62. 62. Produire et décrire le document numérique» Le cas de la numérisation • Une tradition dans les bibliothèques – Le catalogage : création d’information descriptive secondaire (notice) qui caractérise une information primaire (document) – Les métadonnées : des données (secondaires) sur les données (primaires) • Caractéristiques du catalogage : – un contenu normalisé : ISBD, AACR... – Un format pour le traitement informatique : MARC (Machine readablecataloguing) – une notice bibliographique c’est… • une description d’un objet matériel • des « points d’accès » pour retrouver le document • une localisation pour se le procurer 62 Luc Bellier 2013
  63. 63. Produire et décrire le document numérique» Le cas de la numérisation Métadonnées descriptives 63 Luc Bellier 2013
  64. 64. Produire et décrire le document numérique» Le cas de la numérisation Métadonnées descriptives Métadonnées de 64 structure : Luc Bellier 2013
  65. 65. Produire et décrire le document numérique» Le cas de la numérisation Métadonnées de structure : http://bibnum.bnf.fr/refNum/ http://www.loc.gov/standards/mets/METSOverview.v2_fr.html 65 Luc Bellier 2013
  66. 66. Produire et décrire le document numérique» Le cas de la numérisation Métadonnées de structure : le fichier alto http://www.loc.gov/standards/alto/ 66 Luc Bellier 2013
  67. 67. Produire et décrire le document numérique» Le cas de la numérisation Métadonnées descriptives Métadonnées de 67 structure : Luc Bellier 2013
  68. 68. Produire et décrire le document numérique» Le cas de la numérisationMétadonnéesdescriptives :Métadonnées destructure : 68 Luc Bellier 2013
  69. 69. Produire et décrire le document numérique» Le cas de la numérisation Refnum refnum tdm Tiff Notice Alto header Tiff Tiff Biblio T Tiff ID Alto Tiff Alto Alto X Alto Tdm refnum Imprimés Serveurd ’accès TDM 69 Luc Bellier 2013
  70. 70. Le document numérique» Nature et structure du document numérique  La notion de document : d’une définition formelle à une approche par écosystème  Les types de fichiers : Les formats textes, les formats images, les formats multimédia  La granularité du document, structuration et déstructuration» Produire et décrire le document numérique  Le cas de la numérisation  Le cas des de ePub  Les identifiants» Les métadonnées  Les métadonnées pour la recherche • Le cas des catalogues • Le cas des moteurs • Approche sémantique  Les métadonnées comme point d’accès • Accès centralisés (catalogue et/ou moteur) • Accès distribués fermés et ouverts (OAI, RSS et OPDS) • L’interopérabilité sémantique • Les nouvelles métadonnées (folksonomies) • Multiplier les accès et multiplier les documents» Les enjeux des accès et de la médiation:  Maitrise de la chaîne et des formats  Longue traine et économie de l’attention  Appréhender la collection numérique : le cas des bibliothèques  La médiation autour des documents numériques70 Luc Bellier 2013
  71. 71. Le document numérique Produire et décrire le document numérique : le cas des ePub et livres numériques71 Luc Bellier 2013
  72. 72. Produire et décrire le document numérique» Le cas des livres numériques ePub Métadonnées Descriptives? Métadonnées de structure ? 72 Luc Bellier 2013
  73. 73. Produire et décrire le document numérique» Le cas des livres numériques ePub Métadonnées de structure ? Métadonnées Descriptives? 73 Luc Bellier 2013
  74. 74. Produire et décrire le document numérique» Le cas des livres numériques ePub Refnum le cas des livres numériques ePub XML Tiff Meta-inf Manifeste Tiff Tiff T Métadonnées Alto du document Alto X Alto ApplicationsNNNNNNN.ZIP XHTMLou TAR XHTML Imprimés XHTML TDM OPS Table des matières 74 Luc Bellier 2013
  75. 75. Produire et décrire le document numérique» Le cas des livres numériques ePub Métadonnées de structure ? Métadonnées Descriptives? 75 Luc Bellier 2013
  76. 76. Le document numérique Les identifiants76 Luc Bellier 2013
  77. 77. Produire et décrire le document numérique» Les identifiants • Une référence stable : – nommer la ressource – trouver la ressource sur le réseau – « citabilité » • Un identifiant : – reconnaître la ressource – de manière unique – sur le long terme • Donc deux objectifs : – l’accès – la préservation 77 Luc Bellier 2013
  78. 78. Produire et décrire le document numérique» Les identifiants » On dispose de standards pour identifier les documents sur le Web :  URL : localisation  URN : nom  URI : identifiant » L’identifiant (URI) peut être le nom (URN) de la ressource ou son adresse / emplacement (URL) » Aujourd’hui, seules les URL sont interprétées directement par les navigateurs URN URL URI 78 Luc Bellier 2013
  79. 79. Produire et décrire le document numérique» Les identifiants Catalogue : visualiseur.bnf.fr Gallica : Gallica.bnf.fr ark:/12148/bpt6k2029102 79 Luc Bellier 2013
  80. 80. Produire et décrire le documents numérique» Conclusion » Un document numérique cest  Des fichiers + des métadonnées  Une structure physique / logique  Un environnement matériel / logiciel permettant dinterpréter le document » >> construire les accès à la collection numérique » >> préserver les documents numériques 80 Luc Bellier 2013
  81. 81. Produire et décrire le document numérique» Conclusion 00100000001000000010000000110001001100100011000000100000001 d’une collection 00000001000000010000000110101001110000010000000100000001101 Constitution Sélection 01001000000010000000100000001100010011100100111000001100010 01011010011000000111001001011010011001100110000010101000011 » Sélection 00010011010000111010001100100011001000111010001100000011000 Collecte / production 10010111000110110001100100011100101011010001000000010000000 10000000110011001110000011100100111000001011100011011100110 » Acquisition 00000100000001000000010000000110010001100110011010100110010 Description : Métadonnées / 00101110001101000011010100100000001000000010000000100000001 Gestion d’une 00000001011010011000100101110001101100011011000100000001000 collection » Description : 00001000000010110100110111001011100110111001100100010000000 indexation 10000000101101001100010011100000101110001101100011000100100 Catalogage 00000100000001011010011100000110000001011000110000001100000 Préparation à la 01000000010000000101101001110000011000000101110001100000011 00000010000000100000001000000011000100100000001000000011010 » Préparation à la d’une collection 00011001100100000001000000010000000111001001000000010000000 conserrvatopn Rangement et consultation : Empaquetage 10000000100000001110010011100000111001001011100011010000110 01000100000001000000010000000100000001000000011000100110110 » consultation : 00101110001100000011001000100000001000000010000000100000001 Équipement Gestion 00000001101010011001100101110001110000011001100100000001000 00001000000010000000100000001101010011011000101110001101100 01100100010000000100000001000000010000000100000001000000011 01000010111000111000001100010010000000100000001000000010000 » Magasinage Préservation 00011011100111001001100110010111000110101001110000010000000 10000000100000001000000010000000100000001100110010111000110 01100110100000010100010000000100000001000000011000100110010 d’une collection » Conservation Accès 00110000001000000010000000100000001000000011010100111000001 Consultation 00000001000000011010100100000001000000010000000110001001110 01001110000011000100101101001100000011100100101101001100110 » Communication Valorisation 01100000101010000110001001101000011101000110010001100100011 10100011000000110101001011100011011100111000001110000101101 00010000000100000001000000011001100111000001110010011010000 » Valorisation 10111000110110001101000010000000100000001000000011001000110 10100110100001101100010111000111000001110000010000000100000 00100000001000000010000001000000010110100111000001100000010 81 Luc Bellier 2013

×