Partenariat de la BnF avec Wikimédia France - Arnaud Beaufort (décembre 2010)
Upcoming SlideShare
Loading in...5
×
 

Partenariat de la BnF avec Wikimédia France - Arnaud Beaufort (décembre 2010)

on

  • 2,382 views

Présentation faite par Arnaud Beaufort lors des Rencontres Wikimédia 2010 (Paris)

Présentation faite par Arnaud Beaufort lors des Rencontres Wikimédia 2010 (Paris)

Statistics

Views

Total Views
2,382
Views on SlideShare
2,380
Embed Views
2

Actions

Likes
0
Downloads
10
Comments
0

1 Embed 2

http://a0.twimg.com 2

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Partenariat de la BnF avec Wikimédia France - Arnaud Beaufort (décembre 2010) Partenariat de la BnF avec Wikimédia France - Arnaud Beaufort (décembre 2010) Presentation Transcript

    • Partenariat de la BnF avec Wikimédia Arnaud Beaufort Bibliothèque nationale de France Directeur général adjoint Directeur des services et des réseaux Rencontres Wikimédia 4 décembre 2010
    • Une convention pour deux projets Convention Signature : nov. 2009 Lancement avec le Salon du Livre 2010 1 416 documents pour Wikisource Les autorités pour Wikipédia ( infobox ) Noms géographiques Noms de personnes Titres uniformes musicaux Titres conventionnels Titres uniformes textuels
    • Projet 1 : 1416 documents pour Wikisource
    • Et si les internautes faisaient mieux que les machines… Alphonse Allais, Deux et deux font cinq , 1895 – Texte original Le même texte généré par OCR (reconnaissance optique de caractères) Le même texte corrigé par les internautes sur Wikisource
    • Des livres pour Wikisource La BnF a signé une convention portant sur 1416 documents Différents taux de qualité pour étudier l’influence du taux de qualité sur l’activité des internautes (est-il plus facile de transcrire à partir de rien qu’à partir d’un texte très fautif ?) Y compris avec Niveau Qualité < 60 % Différentes thématiques, tout en restant à niveau généraliste Ensembles cohérents (pas de séries dépareillées)
    • Quelques exemples…
    • Corriger le texte Gallica Texte obtenu par OCR Tables des matières : OCR + relecture Indexé seulement si NQ ≥ 60 % => perdu si NQ < 60 % Pas de correction (ni par les internautes, ni par reCaptcha) NB : d’autres bibliothèques proposent des systèmes de correction en ligne ( http:// newspapers.nla.gov.au / ndp / del /home )
    • Un exemple : la Bibliothèque nationale d’Australie (presse numérisée)
    • Bilan d’étape (octobre 2010) 1416 livres ont été donnés dans le cadre du partenariat 1057 avaient un OCR (et 359 sans OCR) 573 310 pages cumulées 404 pages par livre en moyenne
    • Bilan d’étape (octobre 2010) L'ensemble des fichiers a été mis en ligne et une nouvelle "catégorie" a été créée dans Wiki Commons Cf. http:// commons.wikimedia.org /w/ index.php ? title = Category : Books_provided_by_the_BNF Et la liste sur http://fr.wikisource.org/wiki/Wikisource:Dialogue_BnF/Liste_de_textes_fournis
    • Création d’un modèle Création d’un modèle pour indiquer la provenance BnF
    • Le signalement des ouvrages et l'animation de la communauté est pris en charge par Wikimédia…
    • … et relayé par Gallica sur les réseaux sociaux…
    • …avec succès !
    • Répartition du corpus par page En cours Fini Pas commencé
    • Enjeux : le collaboratif et Gallica Enseignements à tirer des premiers mois de ce partenariat : Importance de s’appuyer sur une base de contributeurs aguerris Importance de l’animation de la communauté (événements, appels à contribution, réseaux sociaux et blogs…) pour attirer de nouveaux contributeurs
    • Depuis fin novembre 2010, mise en place de liens de Gallica vers Wikisource Le lien est fait page à page directement. Il faudra suivre si ces liens ont un impact sur la contribution de correcteurs qui ne sont pas des habitués de wikisource.
    • Et demain ? Développer un service de correction d’OCR dans Gallica ? R&D avec Orange Labs (projet Ozalid) Projet de saisie de manuscrits (ANR) Mais importance de la fonction d’animation de communauté. D’où l’importance de s’appuyer sur les communautés existantes. Les prolongements du partenariat actuel La récupération du texte corrigé Sera traitée ultérieurement, sous forme d’un marché (réinjecter le texte tout en restant compatible avec les fonctionnalités de Gallica) Se servir de ces textes corrigés pour créer des e-books ePub… NB : d’ores et déjà, la BnF réfléchit à mettre à disposition des contenus divers (images…) pour des partenaires (Wikimedia commons, Flick’r, WDL…) de façon à améliorer la visibilité de ses ressources pour les internautes
    • Projet 2 : Structurer les données
    • Les données d’autorité de la BnF Les lieux : noms géographiques (autorités GEO) Les personnes noms de personnes (autorités PEP) Les « œuvres » : les titres uniformes musicaux (TUM) les titres conventionnels (TIC) les titres uniformes textuels (TUT) Soit environ 1,6 millions de notices
    • Exemple de lieux L’espace… et le temps Coordonnées géographiques Différentes langues ou graphies
    • Exemple de titres uniformes musicaux Différents titres utilisés Fait partie de Informations sur l’œuvre
    • Exemple de titres conventionnels ou textuels Différents titres utilisés Fait partie de Différentes langues Informations sur l’œuvre
    • Objet du partenariat La BnF met à disposition ses notices d’autorité Utilisation dans Wikipédia Alimentation des « infobox » Avec de l’information structurée Liens vers les notices BnF
    • Données structurées… sans gestion des autorités sans lien vers la BnF et ses ressources avec des informations supplémentaires par rapport aux notices de la BnF
    • Exemple de personne
    • L’exemple allemand
    • Lien vers le catalogue de la bibliothèque nationale allemande
    • Des enjeux majeurs Modifier la relation avec les internautes Améliorer nos données à terme, possibilité de récupérer ou d’indexer le texte corrigé Multiplier les points d’accès vers les ressources de la Bibliothèque nationale Insérer nos données dans le web de données
    • Le projet de « pivot documentaire » (data.bnf.fr) La BnF développe un projet pour mettre en œuvre ces pistes de travail Augmenter la visibilité des ressources BnF sur le Web Proposer des pages attractives Centrées autour des notions d’œuvre et d’auteur Nombreux liens vers des ressources BnF et des ressources externes (dont Wikipedia)…
    • Maquette du pivot documentaire Romain Wenz- July 21st 2010 Exemple de page « œuvre » Une ergonomie durable qui a pour but de : -fournir du contenu -lier vers les ressources -conduire aux services
    • Merci de votre attention [email_address]