0
Partenariat de la BnF avec Wikimédia Arnaud Beaufort Bibliothèque nationale de France Directeur général adjoint Directeur ...
Une convention pour deux projets Convention Signature : nov. 2009 Lancement avec le Salon du Livre 2010 1 416 documents po...
Projet 1 : 1416 documents pour Wikisource
Et si les internautes faisaient mieux que les machines… Alphonse Allais,  Deux et deux font cinq , 1895 – Texte original L...
Des livres pour Wikisource La BnF a signé une convention portant sur 1416 documents Différents taux de qualité  pour étudi...
Quelques exemples…
Corriger le texte Gallica Texte obtenu par OCR Tables des matières : OCR + relecture Indexé seulement si NQ ≥ 60 % => p...
Un exemple : la Bibliothèque nationale d’Australie (presse numérisée)
Bilan d’étape (octobre 2010) 1416 livres ont été donnés dans le cadre du partenariat 1057 avaient un OCR (et 359 sans OCR)...
Bilan d’étape (octobre 2010) L'ensemble des fichiers a été mis en ligne et une nouvelle "catégorie"...
Création d’un modèle  Création d’un modèle pour indiquer la provenance BnF
Le signalement des ouvrages et l'animation de la communauté est pris en charge par Wikimédia…
… et relayé par Gallica sur les réseaux sociaux…
…avec succès !
Répartition du corpus par page En cours Fini Pas commencé
Enjeux : le collaboratif et Gallica Enseignements à tirer des premiers mois de ce partenariat :  Importance de s’appuyer s...
Depuis fin novembre 2010, mise en place de liens de Gallica vers Wikisource Le lien est fait page à page directement. Il f...
Et demain ? Développer un service de correction d’OCR dans Gallica ? R&D avec Orange Labs (projet Ozalid) Projet de sa...
Projet 2 : Structurer les données
Les données d’autorité de la BnF Les lieux :  noms géographiques (autorités GEO) Les personnes noms de personnes (autorité...
Exemple de lieux L’espace… et le temps Coordonnées géographiques Différentes langues ou graphies
Exemple de titres uniformes musicaux Différents titres utilisés Fait partie de Informations sur l’œuvre
Exemple de titres conventionnels ou textuels Différents titres utilisés Fait partie de Différentes langues Informations su...
Objet du partenariat  La BnF met à disposition ses notices d’autorité Utilisation dans Wikipédia Alimentation des « infobo...
Données structurées… sans gestion des autorités sans lien vers la BnF et ses ressources avec des informations supplémentai...
Exemple de personne
L’exemple allemand
Lien vers le catalogue de la bibliothèque nationale allemande
Des enjeux majeurs Modifier la relation avec les internautes Améliorer nos données  à terme, possibilité de récupérer ou d...
Le projet de « pivot documentaire » (data.bnf.fr) La BnF développe un projet pour mettre en œuvre ces pistes de travail  A...
Maquette du pivot documentaire Romain Wenz- July 21st 2010 Exemple de page  « œuvre » Une ergonomie durable qui a pour but...
Merci de votre attention [email_address]
Partenariat de la BnF avec Wikimédia France - Arnaud Beaufort (décembre 2010)
Partenariat de la BnF avec Wikimédia France - Arnaud Beaufort (décembre 2010)
Upcoming SlideShare
Loading in...5
×

Partenariat de la BnF avec Wikimédia France - Arnaud Beaufort (décembre 2010)

2,052

Published on

Présentation faite par Arnaud Beaufort lors des Rencontres Wikimédia 2010 (Paris)

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
2,052
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
11
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Partenariat de la BnF avec Wikimédia France - Arnaud Beaufort (décembre 2010)"

  1. 1. Partenariat de la BnF avec Wikimédia Arnaud Beaufort Bibliothèque nationale de France Directeur général adjoint Directeur des services et des réseaux Rencontres Wikimédia 4 décembre 2010
  2. 2. Une convention pour deux projets Convention Signature : nov. 2009 Lancement avec le Salon du Livre 2010 1 416 documents pour Wikisource Les autorités pour Wikipédia ( infobox ) Noms géographiques Noms de personnes Titres uniformes musicaux Titres conventionnels Titres uniformes textuels
  3. 3. Projet 1 : 1416 documents pour Wikisource
  4. 4. Et si les internautes faisaient mieux que les machines… Alphonse Allais, Deux et deux font cinq , 1895 – Texte original Le même texte généré par OCR (reconnaissance optique de caractères) Le même texte corrigé par les internautes sur Wikisource
  5. 5. Des livres pour Wikisource La BnF a signé une convention portant sur 1416 documents Différents taux de qualité pour étudier l’influence du taux de qualité sur l’activité des internautes (est-il plus facile de transcrire à partir de rien qu’à partir d’un texte très fautif ?) Y compris avec Niveau Qualité < 60 % Différentes thématiques, tout en restant à niveau généraliste Ensembles cohérents (pas de séries dépareillées)
  6. 6. Quelques exemples…
  7. 7. Corriger le texte Gallica Texte obtenu par OCR Tables des matières : OCR + relecture Indexé seulement si NQ ≥ 60 % => perdu si NQ < 60 % Pas de correction (ni par les internautes, ni par reCaptcha) NB : d’autres bibliothèques proposent des systèmes de correction en ligne ( http:// newspapers.nla.gov.au / ndp / del /home )
  8. 8. Un exemple : la Bibliothèque nationale d’Australie (presse numérisée)
  9. 9. Bilan d’étape (octobre 2010) 1416 livres ont été donnés dans le cadre du partenariat 1057 avaient un OCR (et 359 sans OCR) 573 310 pages cumulées 404 pages par livre en moyenne
  10. 10. Bilan d’étape (octobre 2010) L'ensemble des fichiers a été mis en ligne et une nouvelle "catégorie" a été créée dans Wiki Commons Cf. http:// commons.wikimedia.org /w/ index.php ? title = Category : Books_provided_by_the_BNF Et la liste sur http://fr.wikisource.org/wiki/Wikisource:Dialogue_BnF/Liste_de_textes_fournis
  11. 11. Création d’un modèle Création d’un modèle pour indiquer la provenance BnF
  12. 12. Le signalement des ouvrages et l'animation de la communauté est pris en charge par Wikimédia…
  13. 13. … et relayé par Gallica sur les réseaux sociaux…
  14. 14. …avec succès !
  15. 15. Répartition du corpus par page En cours Fini Pas commencé
  16. 16. Enjeux : le collaboratif et Gallica Enseignements à tirer des premiers mois de ce partenariat : Importance de s’appuyer sur une base de contributeurs aguerris Importance de l’animation de la communauté (événements, appels à contribution, réseaux sociaux et blogs…) pour attirer de nouveaux contributeurs
  17. 17. Depuis fin novembre 2010, mise en place de liens de Gallica vers Wikisource Le lien est fait page à page directement. Il faudra suivre si ces liens ont un impact sur la contribution de correcteurs qui ne sont pas des habitués de wikisource.
  18. 18. Et demain ? Développer un service de correction d’OCR dans Gallica ? R&D avec Orange Labs (projet Ozalid) Projet de saisie de manuscrits (ANR) Mais importance de la fonction d’animation de communauté. D’où l’importance de s’appuyer sur les communautés existantes. Les prolongements du partenariat actuel La récupération du texte corrigé Sera traitée ultérieurement, sous forme d’un marché (réinjecter le texte tout en restant compatible avec les fonctionnalités de Gallica) Se servir de ces textes corrigés pour créer des e-books ePub… NB : d’ores et déjà, la BnF réfléchit à mettre à disposition des contenus divers (images…) pour des partenaires (Wikimedia commons, Flick’r, WDL…) de façon à améliorer la visibilité de ses ressources pour les internautes
  19. 19. Projet 2 : Structurer les données
  20. 20. Les données d’autorité de la BnF Les lieux : noms géographiques (autorités GEO) Les personnes noms de personnes (autorités PEP) Les « œuvres » : les titres uniformes musicaux (TUM) les titres conventionnels (TIC) les titres uniformes textuels (TUT) Soit environ 1,6 millions de notices
  21. 21. Exemple de lieux L’espace… et le temps Coordonnées géographiques Différentes langues ou graphies
  22. 22. Exemple de titres uniformes musicaux Différents titres utilisés Fait partie de Informations sur l’œuvre
  23. 23. Exemple de titres conventionnels ou textuels Différents titres utilisés Fait partie de Différentes langues Informations sur l’œuvre
  24. 24. Objet du partenariat La BnF met à disposition ses notices d’autorité Utilisation dans Wikipédia Alimentation des « infobox » Avec de l’information structurée Liens vers les notices BnF
  25. 25. Données structurées… sans gestion des autorités sans lien vers la BnF et ses ressources avec des informations supplémentaires par rapport aux notices de la BnF
  26. 26. Exemple de personne
  27. 27. L’exemple allemand
  28. 28. Lien vers le catalogue de la bibliothèque nationale allemande
  29. 29. Des enjeux majeurs Modifier la relation avec les internautes Améliorer nos données à terme, possibilité de récupérer ou d’indexer le texte corrigé Multiplier les points d’accès vers les ressources de la Bibliothèque nationale Insérer nos données dans le web de données
  30. 30. Le projet de « pivot documentaire » (data.bnf.fr) La BnF développe un projet pour mettre en œuvre ces pistes de travail Augmenter la visibilité des ressources BnF sur le Web Proposer des pages attractives Centrées autour des notions d’œuvre et d’auteur Nombreux liens vers des ressources BnF et des ressources externes (dont Wikipedia)…
  31. 31. Maquette du pivot documentaire Romain Wenz- July 21st 2010 Exemple de page « œuvre » Une ergonomie durable qui a pour but de : -fournir du contenu -lier vers les ressources -conduire aux services
  32. 32. Merci de votre attention [email_address]
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×