Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Bibliothèque nationale de France - Jean-Philippe Moreux

846 views

Published on

Bibliothèque nationale de France presentation at "Succeed in Digitisation. Spreading Excellence" Conference. Validation and take-up of text digitisation tools.

Published in: Technology
  • Be the first to comment

  • Be the first to like this

Bibliothèque nationale de France - Jean-Philippe Moreux

  1. 1. Bibliothèque nationale de France Jean-Philippe Moreux, Ourdia Djaout
  2. 2. Bibliothèque nationale de France •1368 : premier inventaire de la bibliothèque royale •1537 : institution du dépôt légal par François 1er •1666 : installation de la bibliothèque à Richelieu •1994 : création de la Bibliothèque nationale de France •1995 : inauguration du bâtiment François-Mitterrand 1996-1998 ouverture au public du nouveau site •Cinq sites ouverts au public •Livres, périodiques, manuscrits, estampes, photographies, affiches, cartes et plans, audiovisuel, et aussi monnaies, médailles, maquettes, partitions, décors et costumes de théâtre •3660 places dans les salles de lecture, 840 000 lecteurs en 2013
  3. 3. Cas d’usage : contrôle qualité OCR Principe : comparer le document à évaluer à son document étalon (« vérité terrain ») afin de quantifier ses défauts. Usage : marchés de numérisation (phases de test, audits), R&D Outils : •Aletheia : création de vérité terrain •ocrevalUAtion : évaluation de la qualité OCR (transcription du texte) •Layout Evaluation : évaluation de la qualité OCR (segmentation) Corpus : VT BnF (monographies) et VT Europeana Newspapers (presse) x % d’erreurs de reconnaissance y % d’erreurs de segmentation z % de mots omis … ? VT
  4. 4. Cas d’usage : contrôle qualité OCR Usage : marchés de numérisation (phases de test, audits), R&D Principe : comparer le document à évaluer à son document étalon (VT) afin de quantifier les défauts Outils : •Aletheia : création de vérité terrain •ocrevalUAtion : évaluation de la qualité OCR (transcription du texte) •Layout Evaluation : évaluation de la qualité OCR (segmentation) Corpus : VT BnF (monographies) et VT Europeana Newspapers (presse) x % d’erreurs de reconnaissance y % d’erreurs de segmentation z % de mots omis … 1 ?
  5. 5. Aletheia (université de Salford) •Binarisation et moteur OCR intégré •Outils de segmentation semi-auto et automatique, de typage des contenus… •Outils de correction (segmentation, texte, etc.) •Granularité : bloc, ligne, mot, caractère Format PAGE (et export .txt)
  6. 6. Cas d’usage : contrôle qualité OCR Usage : marchés de numérisation (phases de test, audits), R&D Principe : comparer le document à évaluer à son document étalon (VT) afin de quantifier les défauts Outils : •Aletheia : création de vérité terrain •ocrevalUAtion : évaluation de la qualité OCR (transcription du texte) •Layout Evaluation : évaluation de la qualité OCR (segmentation) Corpus : VT BnF (monographies) et VT Europeana Newspapers (presse) ?  x % d’erreurs de reconnaissance y % d’erreurs de segmentation z % de mots omis … 2
  7. 7. ocrevalUAtion (université d’Alicante) •Evaluation de fichier ou de document (x fichiers) •Formats ALTO, PAGE, FineReader, texte •Options de périmètre : mots vides, casse, ponctuation, accents, équivalences, zones, ? 4,3 % d’erreurs sur les caractères 11,45 % d’erreurs sur les mots
  8. 8. LayoutEvaluation (université de Salford) ? •Profils d’évaluation par type d’usage •Erreurs classées par types (omission, fausse détection, fusion, scission, classement erroné) et par niveaux (bloc, ligne, mot) 0,3 % de mots omis 1,1 % de mots surdétectés 0,3 % de mots fusionnés 0,2 % de mots scindés …
  9. 9. Résultats d’évaluation Evaluation •Outils opérationnels, efficaces. Demandes d’évolution transmises aux développeurs. •Le contrôle qualité OCR avec VT est une activité chronophage ! Application •Intégration des outils dans la boîte à outils Numérisation. •Utilisation d’Alethia dans la phase de test du nouveau marché Imprimés 2014. •Rédaction d’un guide pratique en français pour les bibliothèques partenaires.

×