SlideShare a Scribd company logo
CC
BY-NC-SA
mikeVC,
Flickr
Transcription
collaborative@BnF
Jean-Philippe Moreux, DSR/DCP
« Many hands make light work »
Trove (Bibliothèque nationale
d’Australie, 2009)
Correction
d’OCR
DigitalKoot, correction collaborative d’OCR
(Bibliothèque nationale de Finlande, 2011)
Gamification
Disposer d’un mode texte
de bonne qualité
- recherche plein texte
- fouille de texte pour les SHS
- accessibilité (synthèse vocale)
Appliqué à des documents
patrimoniaux ou d’archives, l’OCR est
insatisfaisant pour certains usages :
nécessité d’une relecture/correction
humaine
Source
:
Gallica
Recherche plein texte
dans Gallica
Q > 50 %
Bibliothèques :
format XML ALTO
Etude sur les usages collaboratifs
(Plein Sens, 2008)
 « Echanger sur Gallica,
on n’y pense pas »
Depuis 2010 : médiation
numérique, communauté
des Gallicanautes
Etudes Usage et satisfaction
de Gallica (2011, 2016)
Source
:
Gallica
https://multimedia-ext.bnf.fr/pdf/mettre_en_ligne_patrimoine_enquete.pdf
Mise à disposition de 1 365
documents Gallica sur la
bibliothèque numérique
Wikisource
- S’appuyer sur une plateforme
préexistante et ses contributeurs
wikisourciens
- Expérimenter un premier projet
collaboratif
Source
:
Gallica
https://fr.wikisource.org/wiki/Cat%C3%A9gorie:Ouvrages_issus_du_partenariat_avec_la_BnF
Début 2020 : 350 documents
corrigés par une double
vérification ; 800 documents
en cours de correction
- Faiblesse de la communication et
de la médiation institutionnelle
- Difficulté de s’insérer dans
la communauté des Wikisourciens
- Pas de réintégration des textes
produits dans Gallica (format
ALTO)
Source
:
Gallica
Conception de la plateforme
collaborative Correct
de correction et d’enrichissement
de documents numérisés
Neuf partenaires :
- Coordination : Orange Labs
- Entreprises : Jamespot, Urbilog, I2S
- Laboratoires de recherche : ISEP, INSA
Lyon, Université Claude Bernard, Paris 8
- Institution culturelle : BnF
Moteur d’autocontrôle
Editeur de
correction
Réseau social
Un pari : un projet de
crowdsourcing appuyé
sur un réseau social
Miser sur l’entraide des usagers
pour organiser le travail de
participation et assurer la qualité
de la production
Parier sur l’échange social comme
levier de motivation
Objectif : susciter l’appropriation de
la plateforme par les usagers,
passer de la participation
à la collaboration
 L’exemple du groupe
Lecteurs.com
Source
:
Gallica
3 701 pages corrigées sur un total de
16 805 pages (62 ouvrages proposés),
soit environ 22% du nombre total
des pages.
37 contributeurs (soit 8% des inscrits)
ont assuré 63% des corrections totales
dont 10 ont réalisés à eux-seuls
50% du total des corrections.
Quelques « super-
contributeurs »
Source
:
Gallica
http://blog.bnf.fr/gallica/index.php/2015/06/01/resultats-
de-letude-dusages-de-la-plateforme-correct/
Projet
SCRIBE@BnF
(2019-2021)
Intégration de la
plateforme open
source SCRIBE
(Zooniverse, The New
York Public Library Labs)
Gestion de campagnes
multiples, annotation,
transcription
Source
:
Gallica
https://scribeproject.github.io/
Source
:
Gallica
Captcha
Culture/Ocapi
(2019-2021)
Dispositif de captcha
pour le patrimoine
numérisé
Prix de l’innovation du
hackathon des Archives
nationales (2018)
puis projet « Services
numériques innovants (MCI) »
Teklia, AN, BnF, musée
de Bretagne
https://dculturelles.hypotheses.org/author/dculturelles
Captcha Culture
(2019-2021)
https://teklia.com/solutions/ocapi/
Projet ORCA
(2020-2021)
Plateforme de
correction collaborative
du format XML ALTO
Simple ou double
correction
Campagnes (printemps
2021) : légendes
d’illustration de presse
BnF, CCS (Hambourg)
GioQoSo (CNRS Mastodons,
2018-2019), ANR
CollabScore (2021-2024)
Transcription et édition
de partitions imprimées
OMR, outils de contrôle
automatique, validation
collaborative, démonstrateurs
multimodaux (IIIF)
IREMUS, IRISA, CNAM, BnF,
Fondation Royaumont
Source
:
Gallica
GioQoSo (2018-2019),
CollabScore (2021-2024)
OMérisation
Corpus
à numériser
(PDF)
Corpus XML
(MEI)
Interface
Annotation/
correction
Annotations /
variantes
Choix des
corrections
validation
Corpus
avec
corrections
optimales
Gallicanautes
https://gioqoso.irisa.fr/
Edition
Diffusion
Recherche
IIIF : diffusion
et partage des
transcriptions
et annotations
mandragore.bnf.fr
Annotations
(OA, IIIF)
Usage
Usage
Usage
Mirador
https://api.bnf.fr/fr/mandragore-echantillon-segmente-2019
IIIF : diffusion
et partage des
transcriptions
et annotations
gallicapix.bnf.fr
Mirador
Vogue

More Related Content

Similar to Transcription collaborative à la BnF-2021

Les Outils participatifs
Les Outils participatifsLes Outils participatifs
Les Outils participatifs
Xavier Galaup
 
Le web participatif, Rennes, juin 2009
Le web participatif, Rennes, juin 2009Le web participatif, Rennes, juin 2009
Le web participatif, Rennes, juin 2009
Xavier Galaup
 
Usages et usagers des bibliothèques
Usages et usagers des bibliothèquesUsages et usagers des bibliothèques
Usages et usagers des bibliothèques
Xavier Galaup
 
MéDiation NuméRique
MéDiation NuméRiqueMéDiation NuméRique
MéDiation NuméRiqueDujol Lionel
 
Less bibliothèques face à l'évolution d'internet et des ressources en ligne
Less bibliothèques face à l'évolution d'internet et des ressources en ligneLess bibliothèques face à l'évolution d'internet et des ressources en ligne
Less bibliothèques face à l'évolution d'internet et des ressources en ligne
Xavier Galaup
 
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - "Le pro...
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - "Le pro...Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - "Le pro...
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - "Le pro...
ABES
 
Les bibliotheques et le web participatif Vannes
Les bibliotheques et le web participatif VannesLes bibliotheques et le web participatif Vannes
Les bibliotheques et le web participatif Vannes
Xavier Galaup
 
JE 100111 L Maurel
JE 100111 L MaurelJE 100111 L Maurel
JE 100111 L MaurelBibliolab
 
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIFMieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Equipex Biblissima
 
Qu'est-ce que le web collaboratif ? Du participatif au collaboratif
Qu'est-ce que le web collaboratif ? Du participatif au collaboratifQu'est-ce que le web collaboratif ? Du participatif au collaboratif
Qu'est-ce que le web collaboratif ? Du participatif au collaboratif
evy32000
 
Galaup co creation de contenus-abf 2012
Galaup co creation de contenus-abf 2012Galaup co creation de contenus-abf 2012
Galaup co creation de contenus-abf 2012Bibliolab
 
Co creation des services et des contenus avec les usagers
Co creation des services et des contenus avec les usagersCo creation des services et des contenus avec les usagers
Co creation des services et des contenus avec les usagers
Xavier Galaup
 
Evolution de la place de l'usager en bibliothèque
Evolution de la place de l'usager en bibliothèqueEvolution de la place de l'usager en bibliothèque
Evolution de la place de l'usager en bibliothèque
Xavier Galaup
 
Formation Initiale Informatique 2008
Formation Initiale Informatique 2008Formation Initiale Informatique 2008
Formation Initiale Informatique 2008
pascaljh
 
Les bibliothèques au service de la génération Y
Les bibliothèques au service de la génération YLes bibliothèques au service de la génération Y
Les bibliothèques au service de la génération Y
BIS Biblio Info Suisse
 
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Equipex Biblissima
 
WEB 2.0 pour le jumelage tunisie
WEB 2.0 pour le jumelage tunisieWEB 2.0 pour le jumelage tunisie
WEB 2.0 pour le jumelage tunisie
Salvatore Marras
 
Le web participatif en bibliotheque publique
Le web participatif en bibliotheque publiqueLe web participatif en bibliotheque publique
Le web participatif en bibliotheque publique
Xavier Galaup
 
Cnfpt formationmediationnumerique
Cnfpt formationmediationnumeriqueCnfpt formationmediationnumerique
Cnfpt formationmediationnumerique
ABES
 
IIIF et Biblissima
IIIF et BiblissimaIIIF et Biblissima
IIIF et Biblissima
Equipex Biblissima
 

Similar to Transcription collaborative à la BnF-2021 (20)

Les Outils participatifs
Les Outils participatifsLes Outils participatifs
Les Outils participatifs
 
Le web participatif, Rennes, juin 2009
Le web participatif, Rennes, juin 2009Le web participatif, Rennes, juin 2009
Le web participatif, Rennes, juin 2009
 
Usages et usagers des bibliothèques
Usages et usagers des bibliothèquesUsages et usagers des bibliothèques
Usages et usagers des bibliothèques
 
MéDiation NuméRique
MéDiation NuméRiqueMéDiation NuméRique
MéDiation NuméRique
 
Less bibliothèques face à l'évolution d'internet et des ressources en ligne
Less bibliothèques face à l'évolution d'internet et des ressources en ligneLess bibliothèques face à l'évolution d'internet et des ressources en ligne
Less bibliothèques face à l'évolution d'internet et des ressources en ligne
 
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - "Le pro...
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - "Le pro...Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - "Le pro...
Jabes 2011 - Sessions parallèles : Retours d'expériences innovantes - "Le pro...
 
Les bibliotheques et le web participatif Vannes
Les bibliotheques et le web participatif VannesLes bibliotheques et le web participatif Vannes
Les bibliotheques et le web participatif Vannes
 
JE 100111 L Maurel
JE 100111 L MaurelJE 100111 L Maurel
JE 100111 L Maurel
 
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIFMieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
Mieux diffuser et valoriser ses images sur le Web grâce aux standards IIIF
 
Qu'est-ce que le web collaboratif ? Du participatif au collaboratif
Qu'est-ce que le web collaboratif ? Du participatif au collaboratifQu'est-ce que le web collaboratif ? Du participatif au collaboratif
Qu'est-ce que le web collaboratif ? Du participatif au collaboratif
 
Galaup co creation de contenus-abf 2012
Galaup co creation de contenus-abf 2012Galaup co creation de contenus-abf 2012
Galaup co creation de contenus-abf 2012
 
Co creation des services et des contenus avec les usagers
Co creation des services et des contenus avec les usagersCo creation des services et des contenus avec les usagers
Co creation des services et des contenus avec les usagers
 
Evolution de la place de l'usager en bibliothèque
Evolution de la place de l'usager en bibliothèqueEvolution de la place de l'usager en bibliothèque
Evolution de la place de l'usager en bibliothèque
 
Formation Initiale Informatique 2008
Formation Initiale Informatique 2008Formation Initiale Informatique 2008
Formation Initiale Informatique 2008
 
Les bibliothèques au service de la génération Y
Les bibliothèques au service de la génération YLes bibliothèques au service de la génération Y
Les bibliothèques au service de la génération Y
 
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
Rompre avec la logique des silos : les protocoles IIIF pour l’interopérabilit...
 
WEB 2.0 pour le jumelage tunisie
WEB 2.0 pour le jumelage tunisieWEB 2.0 pour le jumelage tunisie
WEB 2.0 pour le jumelage tunisie
 
Le web participatif en bibliotheque publique
Le web participatif en bibliotheque publiqueLe web participatif en bibliotheque publique
Le web participatif en bibliotheque publique
 
Cnfpt formationmediationnumerique
Cnfpt formationmediationnumeriqueCnfpt formationmediationnumerique
Cnfpt formationmediationnumerique
 
IIIF et Biblissima
IIIF et BiblissimaIIIF et Biblissima
IIIF et Biblissima
 

More from Jean-Philippe Moreux

IIIF for Interoperability and Dissemination of Research Results: The NewsEye ...
IIIF for Interoperability and Dissemination of Research Results: The NewsEye ...IIIF for Interoperability and Dissemination of Research Results: The NewsEye ...
IIIF for Interoperability and Dissemination of Research Results: The NewsEye ...
Jean-Philippe Moreux
 
GallicaPix
GallicaPix GallicaPix
Atelier API Gallica
Atelier API GallicaAtelier API Gallica
Atelier API Gallica
Jean-Philippe Moreux
 
IIIF & Digital Humanities
IIIF & Digital Humanities     IIIF & Digital Humanities
IIIF & Digital Humanities
Jean-Philippe Moreux
 
Image Retrieval at the BnF
Image Retrieval at the BnFImage Retrieval at the BnF
Image Retrieval at the BnF
Jean-Philippe Moreux
 
Fouille d’images dans les collections patrimoniales : GallicaPix
Fouille d’images dans les collections patrimoniales : GallicaPixFouille d’images dans les collections patrimoniales : GallicaPix
Fouille d’images dans les collections patrimoniales : GallicaPix
Jean-Philippe Moreux
 
Hybrid Image Retrieval in Digital libraries
Hybrid Image Retrieval in Digital librariesHybrid Image Retrieval in Digital libraries
Hybrid Image Retrieval in Digital libraries
Jean-Philippe Moreux
 
Data Mining Newspapers Metadata
Data Mining Newspapers MetadataData Mining Newspapers Metadata
Data Mining Newspapers Metadata
Jean-Philippe Moreux
 

More from Jean-Philippe Moreux (8)

IIIF for Interoperability and Dissemination of Research Results: The NewsEye ...
IIIF for Interoperability and Dissemination of Research Results: The NewsEye ...IIIF for Interoperability and Dissemination of Research Results: The NewsEye ...
IIIF for Interoperability and Dissemination of Research Results: The NewsEye ...
 
GallicaPix
GallicaPix GallicaPix
GallicaPix
 
Atelier API Gallica
Atelier API GallicaAtelier API Gallica
Atelier API Gallica
 
IIIF & Digital Humanities
IIIF & Digital Humanities     IIIF & Digital Humanities
IIIF & Digital Humanities
 
Image Retrieval at the BnF
Image Retrieval at the BnFImage Retrieval at the BnF
Image Retrieval at the BnF
 
Fouille d’images dans les collections patrimoniales : GallicaPix
Fouille d’images dans les collections patrimoniales : GallicaPixFouille d’images dans les collections patrimoniales : GallicaPix
Fouille d’images dans les collections patrimoniales : GallicaPix
 
Hybrid Image Retrieval in Digital libraries
Hybrid Image Retrieval in Digital librariesHybrid Image Retrieval in Digital libraries
Hybrid Image Retrieval in Digital libraries
 
Data Mining Newspapers Metadata
Data Mining Newspapers MetadataData Mining Newspapers Metadata
Data Mining Newspapers Metadata
 

Transcription collaborative à la BnF-2021

  • 2. « Many hands make light work » Trove (Bibliothèque nationale d’Australie, 2009) Correction d’OCR
  • 3. DigitalKoot, correction collaborative d’OCR (Bibliothèque nationale de Finlande, 2011) Gamification
  • 4. Disposer d’un mode texte de bonne qualité - recherche plein texte - fouille de texte pour les SHS - accessibilité (synthèse vocale) Appliqué à des documents patrimoniaux ou d’archives, l’OCR est insatisfaisant pour certains usages : nécessité d’une relecture/correction humaine Source : Gallica
  • 5. Recherche plein texte dans Gallica Q > 50 %
  • 7. Etude sur les usages collaboratifs (Plein Sens, 2008)  « Echanger sur Gallica, on n’y pense pas » Depuis 2010 : médiation numérique, communauté des Gallicanautes Etudes Usage et satisfaction de Gallica (2011, 2016) Source : Gallica
  • 8.
  • 10. Mise à disposition de 1 365 documents Gallica sur la bibliothèque numérique Wikisource - S’appuyer sur une plateforme préexistante et ses contributeurs wikisourciens - Expérimenter un premier projet collaboratif Source : Gallica https://fr.wikisource.org/wiki/Cat%C3%A9gorie:Ouvrages_issus_du_partenariat_avec_la_BnF
  • 11.
  • 12. Début 2020 : 350 documents corrigés par une double vérification ; 800 documents en cours de correction - Faiblesse de la communication et de la médiation institutionnelle - Difficulté de s’insérer dans la communauté des Wikisourciens - Pas de réintégration des textes produits dans Gallica (format ALTO) Source : Gallica
  • 13. Conception de la plateforme collaborative Correct de correction et d’enrichissement de documents numérisés Neuf partenaires : - Coordination : Orange Labs - Entreprises : Jamespot, Urbilog, I2S - Laboratoires de recherche : ISEP, INSA Lyon, Université Claude Bernard, Paris 8 - Institution culturelle : BnF
  • 15.
  • 16. Un pari : un projet de crowdsourcing appuyé sur un réseau social Miser sur l’entraide des usagers pour organiser le travail de participation et assurer la qualité de la production Parier sur l’échange social comme levier de motivation Objectif : susciter l’appropriation de la plateforme par les usagers, passer de la participation à la collaboration  L’exemple du groupe Lecteurs.com Source : Gallica
  • 17. 3 701 pages corrigées sur un total de 16 805 pages (62 ouvrages proposés), soit environ 22% du nombre total des pages. 37 contributeurs (soit 8% des inscrits) ont assuré 63% des corrections totales dont 10 ont réalisés à eux-seuls 50% du total des corrections. Quelques « super- contributeurs » Source : Gallica http://blog.bnf.fr/gallica/index.php/2015/06/01/resultats- de-letude-dusages-de-la-plateforme-correct/
  • 18. Projet SCRIBE@BnF (2019-2021) Intégration de la plateforme open source SCRIBE (Zooniverse, The New York Public Library Labs) Gestion de campagnes multiples, annotation, transcription Source : Gallica https://scribeproject.github.io/
  • 19. Source : Gallica Captcha Culture/Ocapi (2019-2021) Dispositif de captcha pour le patrimoine numérisé Prix de l’innovation du hackathon des Archives nationales (2018) puis projet « Services numériques innovants (MCI) » Teklia, AN, BnF, musée de Bretagne https://dculturelles.hypotheses.org/author/dculturelles
  • 21. Projet ORCA (2020-2021) Plateforme de correction collaborative du format XML ALTO Simple ou double correction Campagnes (printemps 2021) : légendes d’illustration de presse BnF, CCS (Hambourg)
  • 22. GioQoSo (CNRS Mastodons, 2018-2019), ANR CollabScore (2021-2024) Transcription et édition de partitions imprimées OMR, outils de contrôle automatique, validation collaborative, démonstrateurs multimodaux (IIIF) IREMUS, IRISA, CNAM, BnF, Fondation Royaumont Source : Gallica
  • 23. GioQoSo (2018-2019), CollabScore (2021-2024) OMérisation Corpus à numériser (PDF) Corpus XML (MEI) Interface Annotation/ correction Annotations / variantes Choix des corrections validation Corpus avec corrections optimales Gallicanautes https://gioqoso.irisa.fr/ Edition Diffusion Recherche
  • 24. IIIF : diffusion et partage des transcriptions et annotations mandragore.bnf.fr Annotations (OA, IIIF) Usage Usage Usage Mirador https://api.bnf.fr/fr/mandragore-echantillon-segmente-2019
  • 25. IIIF : diffusion et partage des transcriptions et annotations gallicapix.bnf.fr Mirador Vogue