SlideShare a Scribd company logo
1 of 15
Download to read offline
LECTAUREP
Lecture automatique
de répertoires de notaires
Datalab - BnF - 26/01/2021.
Alix CHAGUÉ - Inria - alix.chague@inria.fr.
Aurélia ROSTAING - Archives nationales - aurelia.rostaing@culture.gouv.fr.
LECTAUREP en quelques mots
Lecture et exploitation de registres de notaires
assistées par apprentissage machine
LECTAUREP en quelques chiffres
- Un ensemble physiquement cohérent (~ 2000 registres préimprimés, ~ 1803-1944),
échantillonné en deux jeux d’images numériques
- Ecritures, abréviations et mises en page nombreuses et variées (des milliers de mains)
- Une variété de supports numériques
Plan B : réduire et simplifier le corpus
Contrats de mariage de négociants (41 registres, 1829-1934) ; Me Bronod (9 reg.,
1719-1765) : écriture homogène et soignée, moins abrégée, plus aérée
Développements autour d’eScriptorium
Visualisation de la chaîne complète
*HTR-United est un projet de Commons pour les données d’entraînement pour l’HTR : https://htr-united.github.io/
Stratégie d’entraînement des modèles
Segmentation :
❖ Un modèle générique opérationnel (lectau1_8) à affiner pour les
cas particuliers (écritures serrées)
Transcription :
On ne peut pas entraîner un seul modèle pour l’ensemble du corpus !
❖ Un modèle générique (objectif : 20 % CER max.)
❖ Un affinage du modèle générique pour chaque nouvelle main d’
écriture ou quand aucun modèle ne fonctionne (objectif : 10 %
CER max.)
L’objectif est de réduire la quantité de données nécessaire pour
l’entraînement d’un modèle spécifique à chaque écriture.
Production des données d’entraînement
La performance du modèle dépend de la qualité des données d’entraînement :
- On ne peut pas se contenter d’une transcription / image : il faut plusieurs annotateurs
pour une même image, et une comparaison des transcriptions !
- Il est nécessaire d’établir un guide d’annotation et d’identifier les points de désaccord
des annotateurs !
- Il faut former les annotateurs aux règles d’annotation qui ont été décidées
- Il faudra former les contributeurs à ces règles d’annotation
Extrait des résultats
d’une expérimentation
permettant d’illustrer
les désaccords
insoupçonnés !
Production des données d’entraînement
(segmentation & transcription)
❖ Commencée avec le premier confinement, en interne, surtout en alternance d’autres tâches (4
agents, EPT : ~ 1,5 ; correction de la segmentation de 300 pages du golden set ; transcription de
700 pages du golden set : ~ 10/15 mains, ~ 1830/1836/1850/1901/1907, 6 notaires, 2 études) ;
❖ Poursuivie à partir du 16/09, en interne, surtout en discontinu (415 pages du random set par 5
agents, EPT 2 ; + correction de la segmentation et transcription de 254 doubles pages de registres
de contrats de mariage par 8 personnes, EPT 2 ; commencé : Bronod, années 1740, 1 agent) ;
❖ Une équipe aux compétences hétérogènes, avec de grands débutants et des Lectaurépiens plus
chevronnés : une préfiguration de la phase participative, sans les outils d’accompagnement et de
formation requis ;
❖ Des conventions qui doivent être évolutives en raison de la diversité des systèmes d’abréviations du
corpus ;
❖ Un effet d’entonnoir à la phase cruciale de contrôle, correction et validation des données de vérité
terrain (segmentation, transcription).
Exploration des transcriptions
● Un outil de recherche dans le texte intégral (exacte, floue ou par mots-clefs)
● Reconstitution des unités logiques et des informations (unité de l’acte, dates, sommes)
● Annotation des entités nommées, adresses, etc., alignement et visualisation
Objectifs et besoins de Lectaurep
❖ Minimiser les corrections manuelles (temps de correction < temps de saisie
manuelle) pour optimiser la recherche floue -> outils d’analyse et métriques
fiables
❖ CER rectifié : apprécier le taux d’erreur par caractère en le réduisant à sa plus
simple expression (0 ≠ 1 ; A (ou a, a, à, á, ä, â) ≠ B (ou b)) afin d’évaluer
l’efficacité d’une recherche floue (patronymes, métiers, mots matière...) ;
❖ CER + WER : disposer des deux valeurs pour évaluer la répartition des erreurs
(concentrée sur certaines chaînes de caractères ou diffuses ?) ;
❖ Brique participative + animation de communauté : pour produire la vérité
terrain (segmentation, transcription) nécessaire au projet ;
❖ Fonctionnalités : copier-coller des segments et des contenus, faire des
corrections en masse au vu de l’original (cf. Open Refine), indiquer les modèles
dans le fichier alto...
Premières hypothèses de Lectaurep
Segmentation
- numérisation NB d’après microfilm ~ couleur d’après originaux ? (> HTR à la demande ?)
- pas d’inconvénient à partir d’une double page plutôt que de son découpage en deux pages
HTR : ?
Recommandations pour une gestion de projet d’HTR
Calibrer le projet en amont, de A à Z, pour le maîtriser.
❖ 📖 Corpus : homogène, simple, limité (écritures, abréviations, mise en page et autres aspects
matériels) ;
❖ 🔭 Suivi de projet : campagne d’HTR ~ campagne de numérisation ? (récolement page à page,
conventions - CCH faisant l’unanimité...) ;
❖ 🖠 RH : équipe projet à TP, restreinte (?), formée et testée ;
❖ 👀 Matériel : grand écran (voire deux grands écrans), surtout avec des doubles pages ;
❖ Logiciel : utilisable en l’état, sans devoir développer des fonctionnalités supplémentaires ;
❖ ⏳ Calendrier du projet : évaluer le temps d’obtention des modèles de
segmentation/transcription/annotation sémantique, des données de vérité terrain en testant un
échantillon représentatif éventuellement “maison” (segmentation, HTR
manuels/automatiques, annotation ; temps de formation, de correction) ;
❖ 📅 Données (vérité terrain, modèles...) : plan de gestion et de documentation pendant et après
leur production ; modalités de réutilisation.
Enjeux interprofessionnels (GLAM)
❖ Mêmes problématiques, mêmes types de fonds (registres à colonne, mixtes -
manuscrit / imprimé...)
❖ Documenter, formaliser et harmoniser les pratiques (grilles projet types à
décliner ; référentiels et standards de segmentation et de transcription,
nécessaires pour offrir des données interopérables à la paléographie
computationnelle) ;
❖ Cartographier et documenter les projets et les supports d’HTR (logiciels,
serveurs, corpus, financements, RH : Biblissima+, DIM MAP Cremma...) ;
❖ Écrire un manuel de référence sur l’HTR ;
❖ Ecrire un guide Ecrire un cahier des charges d’HTR.
Merci !.

More Related Content

Similar to Présentation du projet Lectaurep (Lecture automatique de répertoires de notaires) - ministère de la Culture/Archives nationales, Inria - Datalab BnF, 26 janvier 2021.

Trends in Programming Technology you might want to keep an eye on af Bent Tho...
Trends in Programming Technology you might want to keep an eye on af Bent Tho...Trends in Programming Technology you might want to keep an eye on af Bent Tho...
Trends in Programming Technology you might want to keep an eye on af Bent Tho...InfinIT - Innovationsnetværket for it
 
MongoDB Use Cases: Healthcare, CMS, Analytics
MongoDB Use Cases: Healthcare, CMS, AnalyticsMongoDB Use Cases: Healthcare, CMS, Analytics
MongoDB Use Cases: Healthcare, CMS, AnalyticsMongoDB
 
Cork AI Meetup Number 3
Cork AI Meetup Number 3Cork AI Meetup Number 3
Cork AI Meetup Number 3Nick Grattan
 
Rust All Hands Winter 2011
Rust All Hands Winter 2011Rust All Hands Winter 2011
Rust All Hands Winter 2011Patrick Walton
 
OUTDATED Text Mining 3/5: String Processing
OUTDATED Text Mining 3/5: String ProcessingOUTDATED Text Mining 3/5: String Processing
OUTDATED Text Mining 3/5: String ProcessingFlorian Leitner
 
Atomate: a high-level interface to generate, execute, and analyze computation...
Atomate: a high-level interface to generate, execute, and analyze computation...Atomate: a high-level interface to generate, execute, and analyze computation...
Atomate: a high-level interface to generate, execute, and analyze computation...Anubhav Jain
 
Lexical analysis - Compiler Design
Lexical analysis - Compiler DesignLexical analysis - Compiler Design
Lexical analysis - Compiler DesignKuppusamy P
 
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...Jeongkyu Shin
 
Trends In Languages 2010
Trends In Languages 2010Trends In Languages 2010
Trends In Languages 2010Markus Voelter
 
Interactive big data analytics
Interactive big data analyticsInteractive big data analytics
Interactive big data analyticsViet-Trung TRAN
 
Caspar Preservation Methodology Steve Renkin
Caspar Preservation Methodology Steve RenkinCaspar Preservation Methodology Steve Renkin
Caspar Preservation Methodology Steve RenkinDigitalPreservationEurope
 
Script of Scripts Polyglot Notebook and Workflow System
Script of ScriptsPolyglot Notebook and Workflow SystemScript of ScriptsPolyglot Notebook and Workflow System
Script of Scripts Polyglot Notebook and Workflow SystemBo Peng
 
Inventing the future Business Programming Language
Inventing the future  Business Programming LanguageInventing the future  Business Programming Language
Inventing the future Business Programming LanguageESUG
 
Everything We Learned About In-Memory Data Layout While Building VoltDB
Everything We Learned About In-Memory Data Layout While Building VoltDBEverything We Learned About In-Memory Data Layout While Building VoltDB
Everything We Learned About In-Memory Data Layout While Building VoltDBjhugg
 

Similar to Présentation du projet Lectaurep (Lecture automatique de répertoires de notaires) - ministère de la Culture/Archives nationales, Inria - Datalab BnF, 26 janvier 2021. (20)

Trends in Programming Technology you might want to keep an eye on af Bent Tho...
Trends in Programming Technology you might want to keep an eye on af Bent Tho...Trends in Programming Technology you might want to keep an eye on af Bent Tho...
Trends in Programming Technology you might want to keep an eye on af Bent Tho...
 
MongoDB Use Cases: Healthcare, CMS, Analytics
MongoDB Use Cases: Healthcare, CMS, AnalyticsMongoDB Use Cases: Healthcare, CMS, Analytics
MongoDB Use Cases: Healthcare, CMS, Analytics
 
OCR using Tesseract
OCR using TesseractOCR using Tesseract
OCR using Tesseract
 
OCR using Tesseract
OCR using TesseractOCR using Tesseract
OCR using Tesseract
 
Cork AI Meetup Number 3
Cork AI Meetup Number 3Cork AI Meetup Number 3
Cork AI Meetup Number 3
 
Rust All Hands Winter 2011
Rust All Hands Winter 2011Rust All Hands Winter 2011
Rust All Hands Winter 2011
 
OUTDATED Text Mining 3/5: String Processing
OUTDATED Text Mining 3/5: String ProcessingOUTDATED Text Mining 3/5: String Processing
OUTDATED Text Mining 3/5: String Processing
 
Search pitb
Search pitbSearch pitb
Search pitb
 
Atomate: a high-level interface to generate, execute, and analyze computation...
Atomate: a high-level interface to generate, execute, and analyze computation...Atomate: a high-level interface to generate, execute, and analyze computation...
Atomate: a high-level interface to generate, execute, and analyze computation...
 
Lexical analysis - Compiler Design
Lexical analysis - Compiler DesignLexical analysis - Compiler Design
Lexical analysis - Compiler Design
 
Lecture1 introduction compilers
Lecture1 introduction compilersLecture1 introduction compilers
Lecture1 introduction compilers
 
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
Let Android dream electric sheep: Making emotion model for chat-bot with Pyth...
 
Trends In Languages 2010
Trends In Languages 2010Trends In Languages 2010
Trends In Languages 2010
 
Interactive big data analytics
Interactive big data analyticsInteractive big data analytics
Interactive big data analytics
 
Bne impact iif
Bne impact iifBne impact iif
Bne impact iif
 
Caspar Preservation Methodology Steve Renkin
Caspar Preservation Methodology Steve RenkinCaspar Preservation Methodology Steve Renkin
Caspar Preservation Methodology Steve Renkin
 
Antlr Conexaojava
Antlr ConexaojavaAntlr Conexaojava
Antlr Conexaojava
 
Script of Scripts Polyglot Notebook and Workflow System
Script of ScriptsPolyglot Notebook and Workflow SystemScript of ScriptsPolyglot Notebook and Workflow System
Script of Scripts Polyglot Notebook and Workflow System
 
Inventing the future Business Programming Language
Inventing the future  Business Programming LanguageInventing the future  Business Programming Language
Inventing the future Business Programming Language
 
Everything We Learned About In-Memory Data Layout While Building VoltDB
Everything We Learned About In-Memory Data Layout While Building VoltDBEverything We Learned About In-Memory Data Layout While Building VoltDB
Everything We Learned About In-Memory Data Layout While Building VoltDB
 

More from Aurélia Rostaing

Les Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersLes Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersAurélia Rostaing
 
La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...Aurélia Rostaing
 
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfBiblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfAurélia Rostaing
 
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursLes grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursAurélia Rostaing
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr... Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...Aurélia Rostaing
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...Aurélia Rostaing
 
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...Aurélia Rostaing
 
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...Aurélia Rostaing
 
Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Aurélia Rostaing
 
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...Aurélia Rostaing
 
Méthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesMéthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesAurélia Rostaing
 
Les archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesLes archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesAurélia Rostaing
 
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Aurélia Rostaing
 
Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Aurélia Rostaing
 
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Aurélia Rostaing
 

More from Aurélia Rostaing (15)

Les Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiersLes Francine, une dynastie d'"ingénieurs"... fontainiers
Les Francine, une dynastie d'"ingénieurs"... fontainiers
 
La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...La recherche dans les archives notariales des Archives nationales. Présentati...
La recherche dans les archives notariales des Archives nationales. Présentati...
 
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdfBiblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
Biblissima_Plus_20230321_Lectaurep_GT_HTR_AI4LAM.pdf
 
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos joursLes grottes du jardin de Rueil du XVIIe siècle à nos jours
Les grottes du jardin de Rueil du XVIIe siècle à nos jours
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr... Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pr...
 
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...
Le projet Lectaurep (Futurs fantastiques, BnF, 1er décembre 2021, atelier Pro...
 
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
LectAuRep (Lecture automatique de répertoires). La reconnaissance automatique...
 
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...
L'intelligence artificielle appliquée aux Archives : LectAuRep (Lecture autom...
 
Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)Les jardins de Fontainebleau sous Henri IV (2010)
Les jardins de Fontainebleau sous Henri IV (2010)
 
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
Le projet LectAuRep - Lecture automatique de répertoires - La reconnaissance ...
 
Méthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationalesMéthodologie de recherche dans les archives notariales des Archives nationales
Méthodologie de recherche dans les archives notariales des Archives nationales
 
Les archives notariales aux Archives nationales
Les archives notariales aux Archives nationalesLes archives notariales aux Archives nationales
Les archives notariales aux Archives nationales
 
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
Réalité topographique des plans généraux de Paris de l’époque moderne : quels...
 
Les Francini côté jardin (2014).
Les Francini côté jardin (2014).Les Francini côté jardin (2014).
Les Francini côté jardin (2014).
 
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...Autour des jeux sérieux (serious games). La terminologie française des jeux v...
Autour des jeux sérieux (serious games). La terminologie française des jeux v...
 

Recently uploaded

VIP High Profile Call Girls Amravati Aarushi 8250192130 Independent Escort Se...
VIP High Profile Call Girls Amravati Aarushi 8250192130 Independent Escort Se...VIP High Profile Call Girls Amravati Aarushi 8250192130 Independent Escort Se...
VIP High Profile Call Girls Amravati Aarushi 8250192130 Independent Escort Se...Suhani Kapoor
 
EMERCE - 2024 - AMSTERDAM - CROSS-PLATFORM TRACKING WITH GOOGLE ANALYTICS.pptx
EMERCE - 2024 - AMSTERDAM - CROSS-PLATFORM  TRACKING WITH GOOGLE ANALYTICS.pptxEMERCE - 2024 - AMSTERDAM - CROSS-PLATFORM  TRACKING WITH GOOGLE ANALYTICS.pptx
EMERCE - 2024 - AMSTERDAM - CROSS-PLATFORM TRACKING WITH GOOGLE ANALYTICS.pptxthyngster
 
Unveiling Insights: The Role of a Data Analyst
Unveiling Insights: The Role of a Data AnalystUnveiling Insights: The Role of a Data Analyst
Unveiling Insights: The Role of a Data AnalystSamantha Rae Coolbeth
 
VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...
VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...
VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...Suhani Kapoor
 
Schema on read is obsolete. Welcome metaprogramming..pdf
Schema on read is obsolete. Welcome metaprogramming..pdfSchema on read is obsolete. Welcome metaprogramming..pdf
Schema on read is obsolete. Welcome metaprogramming..pdfLars Albertsson
 
Customer Service Analytics - Make Sense of All Your Data.pptx
Customer Service Analytics - Make Sense of All Your Data.pptxCustomer Service Analytics - Make Sense of All Your Data.pptx
Customer Service Analytics - Make Sense of All Your Data.pptxEmmanuel Dauda
 
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...Sapana Sha
 
RA-11058_IRR-COMPRESS Do 198 series of 1998
RA-11058_IRR-COMPRESS Do 198 series of 1998RA-11058_IRR-COMPRESS Do 198 series of 1998
RA-11058_IRR-COMPRESS Do 198 series of 1998YohFuh
 
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...soniya singh
 
Call Girls In Noida City Center Metro 24/7✡️9711147426✡️ Escorts Service
Call Girls In Noida City Center Metro 24/7✡️9711147426✡️ Escorts ServiceCall Girls In Noida City Center Metro 24/7✡️9711147426✡️ Escorts Service
Call Girls In Noida City Center Metro 24/7✡️9711147426✡️ Escorts Servicejennyeacort
 
dokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.ppt
dokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.pptdokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.ppt
dokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.pptSonatrach
 
VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...
VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...
VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...Suhani Kapoor
 
VIP Call Girls in Amravati Aarohi 8250192130 Independent Escort Service Amravati
VIP Call Girls in Amravati Aarohi 8250192130 Independent Escort Service AmravatiVIP Call Girls in Amravati Aarohi 8250192130 Independent Escort Service Amravati
VIP Call Girls in Amravati Aarohi 8250192130 Independent Escort Service AmravatiSuhani Kapoor
 
20240419 - Measurecamp Amsterdam - SAM.pdf
20240419 - Measurecamp Amsterdam - SAM.pdf20240419 - Measurecamp Amsterdam - SAM.pdf
20240419 - Measurecamp Amsterdam - SAM.pdfHuman37
 
Brighton SEO | April 2024 | Data Storytelling
Brighton SEO | April 2024 | Data StorytellingBrighton SEO | April 2024 | Data Storytelling
Brighton SEO | April 2024 | Data StorytellingNeil Barnes
 
Call Girls In Mahipalpur O9654467111 Escorts Service
Call Girls In Mahipalpur O9654467111  Escorts ServiceCall Girls In Mahipalpur O9654467111  Escorts Service
Call Girls In Mahipalpur O9654467111 Escorts ServiceSapana Sha
 
Delhi Call Girls Punjabi Bagh 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls Punjabi Bagh 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip CallDelhi Call Girls Punjabi Bagh 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls Punjabi Bagh 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Callshivangimorya083
 
(PARI) Call Girls Wanowrie ( 7001035870 ) HI-Fi Pune Escorts Service
(PARI) Call Girls Wanowrie ( 7001035870 ) HI-Fi Pune Escorts Service(PARI) Call Girls Wanowrie ( 7001035870 ) HI-Fi Pune Escorts Service
(PARI) Call Girls Wanowrie ( 7001035870 ) HI-Fi Pune Escorts Serviceranjana rawat
 

Recently uploaded (20)

VIP High Profile Call Girls Amravati Aarushi 8250192130 Independent Escort Se...
VIP High Profile Call Girls Amravati Aarushi 8250192130 Independent Escort Se...VIP High Profile Call Girls Amravati Aarushi 8250192130 Independent Escort Se...
VIP High Profile Call Girls Amravati Aarushi 8250192130 Independent Escort Se...
 
EMERCE - 2024 - AMSTERDAM - CROSS-PLATFORM TRACKING WITH GOOGLE ANALYTICS.pptx
EMERCE - 2024 - AMSTERDAM - CROSS-PLATFORM  TRACKING WITH GOOGLE ANALYTICS.pptxEMERCE - 2024 - AMSTERDAM - CROSS-PLATFORM  TRACKING WITH GOOGLE ANALYTICS.pptx
EMERCE - 2024 - AMSTERDAM - CROSS-PLATFORM TRACKING WITH GOOGLE ANALYTICS.pptx
 
Unveiling Insights: The Role of a Data Analyst
Unveiling Insights: The Role of a Data AnalystUnveiling Insights: The Role of a Data Analyst
Unveiling Insights: The Role of a Data Analyst
 
VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...
VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...
VIP High Class Call Girls Bikaner Anushka 8250192130 Independent Escort Servi...
 
Schema on read is obsolete. Welcome metaprogramming..pdf
Schema on read is obsolete. Welcome metaprogramming..pdfSchema on read is obsolete. Welcome metaprogramming..pdf
Schema on read is obsolete. Welcome metaprogramming..pdf
 
Customer Service Analytics - Make Sense of All Your Data.pptx
Customer Service Analytics - Make Sense of All Your Data.pptxCustomer Service Analytics - Make Sense of All Your Data.pptx
Customer Service Analytics - Make Sense of All Your Data.pptx
 
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...
Saket, (-DELHI )+91-9654467111-(=)CHEAP Call Girls in Escorts Service Saket C...
 
RA-11058_IRR-COMPRESS Do 198 series of 1998
RA-11058_IRR-COMPRESS Do 198 series of 1998RA-11058_IRR-COMPRESS Do 198 series of 1998
RA-11058_IRR-COMPRESS Do 198 series of 1998
 
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...
High Class Call Girls Noida Sector 39 Aarushi 🔝8264348440🔝 Independent Escort...
 
Call Girls In Noida City Center Metro 24/7✡️9711147426✡️ Escorts Service
Call Girls In Noida City Center Metro 24/7✡️9711147426✡️ Escorts ServiceCall Girls In Noida City Center Metro 24/7✡️9711147426✡️ Escorts Service
Call Girls In Noida City Center Metro 24/7✡️9711147426✡️ Escorts Service
 
dokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.ppt
dokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.pptdokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.ppt
dokumen.tips_chapter-4-transient-heat-conduction-mehmet-kanoglu.ppt
 
VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...
VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...
VIP High Class Call Girls Jamshedpur Anushka 8250192130 Independent Escort Se...
 
VIP Call Girls in Amravati Aarohi 8250192130 Independent Escort Service Amravati
VIP Call Girls in Amravati Aarohi 8250192130 Independent Escort Service AmravatiVIP Call Girls in Amravati Aarohi 8250192130 Independent Escort Service Amravati
VIP Call Girls in Amravati Aarohi 8250192130 Independent Escort Service Amravati
 
20240419 - Measurecamp Amsterdam - SAM.pdf
20240419 - Measurecamp Amsterdam - SAM.pdf20240419 - Measurecamp Amsterdam - SAM.pdf
20240419 - Measurecamp Amsterdam - SAM.pdf
 
Russian Call Girls Dwarka Sector 15 💓 Delhi 9999965857 @Sabina Modi VVIP MODE...
Russian Call Girls Dwarka Sector 15 💓 Delhi 9999965857 @Sabina Modi VVIP MODE...Russian Call Girls Dwarka Sector 15 💓 Delhi 9999965857 @Sabina Modi VVIP MODE...
Russian Call Girls Dwarka Sector 15 💓 Delhi 9999965857 @Sabina Modi VVIP MODE...
 
Brighton SEO | April 2024 | Data Storytelling
Brighton SEO | April 2024 | Data StorytellingBrighton SEO | April 2024 | Data Storytelling
Brighton SEO | April 2024 | Data Storytelling
 
Call Girls In Mahipalpur O9654467111 Escorts Service
Call Girls In Mahipalpur O9654467111  Escorts ServiceCall Girls In Mahipalpur O9654467111  Escorts Service
Call Girls In Mahipalpur O9654467111 Escorts Service
 
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in  KishangarhDelhi 99530 vip 56974 Genuine Escort Service Call Girls in  Kishangarh
Delhi 99530 vip 56974 Genuine Escort Service Call Girls in Kishangarh
 
Delhi Call Girls Punjabi Bagh 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls Punjabi Bagh 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip CallDelhi Call Girls Punjabi Bagh 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
Delhi Call Girls Punjabi Bagh 9711199171 ☎✔👌✔ Whatsapp Hard And Sexy Vip Call
 
(PARI) Call Girls Wanowrie ( 7001035870 ) HI-Fi Pune Escorts Service
(PARI) Call Girls Wanowrie ( 7001035870 ) HI-Fi Pune Escorts Service(PARI) Call Girls Wanowrie ( 7001035870 ) HI-Fi Pune Escorts Service
(PARI) Call Girls Wanowrie ( 7001035870 ) HI-Fi Pune Escorts Service
 

Présentation du projet Lectaurep (Lecture automatique de répertoires de notaires) - ministère de la Culture/Archives nationales, Inria - Datalab BnF, 26 janvier 2021.

  • 1. LECTAUREP Lecture automatique de répertoires de notaires Datalab - BnF - 26/01/2021. Alix CHAGUÉ - Inria - alix.chague@inria.fr. Aurélia ROSTAING - Archives nationales - aurelia.rostaing@culture.gouv.fr.
  • 2. LECTAUREP en quelques mots Lecture et exploitation de registres de notaires assistées par apprentissage machine
  • 3. LECTAUREP en quelques chiffres - Un ensemble physiquement cohérent (~ 2000 registres préimprimés, ~ 1803-1944), échantillonné en deux jeux d’images numériques - Ecritures, abréviations et mises en page nombreuses et variées (des milliers de mains) - Une variété de supports numériques
  • 4. Plan B : réduire et simplifier le corpus Contrats de mariage de négociants (41 registres, 1829-1934) ; Me Bronod (9 reg., 1719-1765) : écriture homogène et soignée, moins abrégée, plus aérée
  • 6. Visualisation de la chaîne complète *HTR-United est un projet de Commons pour les données d’entraînement pour l’HTR : https://htr-united.github.io/
  • 7. Stratégie d’entraînement des modèles Segmentation : ❖ Un modèle générique opérationnel (lectau1_8) à affiner pour les cas particuliers (écritures serrées) Transcription : On ne peut pas entraîner un seul modèle pour l’ensemble du corpus ! ❖ Un modèle générique (objectif : 20 % CER max.) ❖ Un affinage du modèle générique pour chaque nouvelle main d’ écriture ou quand aucun modèle ne fonctionne (objectif : 10 % CER max.) L’objectif est de réduire la quantité de données nécessaire pour l’entraînement d’un modèle spécifique à chaque écriture.
  • 8. Production des données d’entraînement La performance du modèle dépend de la qualité des données d’entraînement : - On ne peut pas se contenter d’une transcription / image : il faut plusieurs annotateurs pour une même image, et une comparaison des transcriptions ! - Il est nécessaire d’établir un guide d’annotation et d’identifier les points de désaccord des annotateurs ! - Il faut former les annotateurs aux règles d’annotation qui ont été décidées - Il faudra former les contributeurs à ces règles d’annotation Extrait des résultats d’une expérimentation permettant d’illustrer les désaccords insoupçonnés !
  • 9. Production des données d’entraînement (segmentation & transcription) ❖ Commencée avec le premier confinement, en interne, surtout en alternance d’autres tâches (4 agents, EPT : ~ 1,5 ; correction de la segmentation de 300 pages du golden set ; transcription de 700 pages du golden set : ~ 10/15 mains, ~ 1830/1836/1850/1901/1907, 6 notaires, 2 études) ; ❖ Poursuivie à partir du 16/09, en interne, surtout en discontinu (415 pages du random set par 5 agents, EPT 2 ; + correction de la segmentation et transcription de 254 doubles pages de registres de contrats de mariage par 8 personnes, EPT 2 ; commencé : Bronod, années 1740, 1 agent) ; ❖ Une équipe aux compétences hétérogènes, avec de grands débutants et des Lectaurépiens plus chevronnés : une préfiguration de la phase participative, sans les outils d’accompagnement et de formation requis ; ❖ Des conventions qui doivent être évolutives en raison de la diversité des systèmes d’abréviations du corpus ; ❖ Un effet d’entonnoir à la phase cruciale de contrôle, correction et validation des données de vérité terrain (segmentation, transcription).
  • 10. Exploration des transcriptions ● Un outil de recherche dans le texte intégral (exacte, floue ou par mots-clefs) ● Reconstitution des unités logiques et des informations (unité de l’acte, dates, sommes) ● Annotation des entités nommées, adresses, etc., alignement et visualisation
  • 11. Objectifs et besoins de Lectaurep ❖ Minimiser les corrections manuelles (temps de correction < temps de saisie manuelle) pour optimiser la recherche floue -> outils d’analyse et métriques fiables ❖ CER rectifié : apprécier le taux d’erreur par caractère en le réduisant à sa plus simple expression (0 ≠ 1 ; A (ou a, a, à, á, ä, â) ≠ B (ou b)) afin d’évaluer l’efficacité d’une recherche floue (patronymes, métiers, mots matière...) ; ❖ CER + WER : disposer des deux valeurs pour évaluer la répartition des erreurs (concentrée sur certaines chaînes de caractères ou diffuses ?) ; ❖ Brique participative + animation de communauté : pour produire la vérité terrain (segmentation, transcription) nécessaire au projet ; ❖ Fonctionnalités : copier-coller des segments et des contenus, faire des corrections en masse au vu de l’original (cf. Open Refine), indiquer les modèles dans le fichier alto...
  • 12. Premières hypothèses de Lectaurep Segmentation - numérisation NB d’après microfilm ~ couleur d’après originaux ? (> HTR à la demande ?) - pas d’inconvénient à partir d’une double page plutôt que de son découpage en deux pages HTR : ?
  • 13. Recommandations pour une gestion de projet d’HTR Calibrer le projet en amont, de A à Z, pour le maîtriser. ❖ 📖 Corpus : homogène, simple, limité (écritures, abréviations, mise en page et autres aspects matériels) ; ❖ 🔭 Suivi de projet : campagne d’HTR ~ campagne de numérisation ? (récolement page à page, conventions - CCH faisant l’unanimité...) ; ❖ 🖠 RH : équipe projet à TP, restreinte (?), formée et testée ; ❖ 👀 Matériel : grand écran (voire deux grands écrans), surtout avec des doubles pages ; ❖ Logiciel : utilisable en l’état, sans devoir développer des fonctionnalités supplémentaires ; ❖ ⏳ Calendrier du projet : évaluer le temps d’obtention des modèles de segmentation/transcription/annotation sémantique, des données de vérité terrain en testant un échantillon représentatif éventuellement “maison” (segmentation, HTR manuels/automatiques, annotation ; temps de formation, de correction) ; ❖ 📅 Données (vérité terrain, modèles...) : plan de gestion et de documentation pendant et après leur production ; modalités de réutilisation.
  • 14. Enjeux interprofessionnels (GLAM) ❖ Mêmes problématiques, mêmes types de fonds (registres à colonne, mixtes - manuscrit / imprimé...) ❖ Documenter, formaliser et harmoniser les pratiques (grilles projet types à décliner ; référentiels et standards de segmentation et de transcription, nécessaires pour offrir des données interopérables à la paléographie computationnelle) ; ❖ Cartographier et documenter les projets et les supports d’HTR (logiciels, serveurs, corpus, financements, RH : Biblissima+, DIM MAP Cremma...) ; ❖ Écrire un manuel de référence sur l’HTR ; ❖ Ecrire un guide Ecrire un cahier des charges d’HTR.