N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

1,363 views
1,243 views

Published on

Partie atelier de la séance consacrée à la XML TEI du séminaire Digital Humanities de l'EHESS 2009-2010

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,363
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
8
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

  1. 1. XML TEI : un outil méthodologique pour la recherche en SHS Atelier pratique. Indexation d'un corpus TEI à partir d'une plateforme collaborative. EHESS – 3 février 2010 Nicole Dufournaud Ingénieure de recherche CESR Tours Chercheuse en Histoire
  2. 2. Plan ● La plate-forme Millefeuille – Le projet Millefeuille – La plate-forme ● Les entités nommés : – Les lieux – Les noms de personnes
  3. 3. La partie « Atelier » ● Présentation : – de la plate-forme – indexation ● Démonstration ● Atelier : – Exercices encodés – 1 exercice à encoder avec <persName> <placeName> <geogName>
  4. 4. Le projet Millefeuille 2006- 2007 ● Projet Millefeuille : Archives nationales, Ecole nationale des Chartes, IDHE de l'Université Paris I et l'INRIA (2006-2007) – Encodage des almanachs royaux, nationaux et impériaux entre 1750 et 1850 – Création d'une plate-forme collaborative qui autorise un travail collectif : un véritable outil de travail mais un prototype ● Créé par Félicien François sur une idée de Jean-Daniel Fekete (INRIA)
  5. 5. Le projet Millefeuille 2006- 2007 ● Projet Millefeuille 2006-2007: – Emacs, une plate-forme de travail efficace et souple: recherche dans le corpus facile (grep et agrep pour la recherche approximative), gestion des versions de documents (cvs) et convertisseur de dates – Inconvénient : lourd apprentissage et aspect rebutant pour les non-initiés – Préparer la seconde phase du projet
  6. 6. La plate-forme Millefeuille ● Eclipse – Éditeur XML : logiciel libre ● Plugin (module accessoire ou “greffon” ou “extension”) : – Affichage des documents en HTML – Création et génération d'index – Filtres et navigation dans les index ● Co-développé par l'IRHT (Richard Walter) et l'INRIA (JD Fekete) – Troisième version sur le site de Telma http://www.cn-telma.fr/ (février 2010)
  7. 7. A savoir ! ● Le système de perspective Millefeuille : par défaut Eclipse propose la perspective Java ● Structure du document XML/TEI – L'affichage se fait sous forme d'arbre. – Le menu contextuel (bouton droit de la souris) propose des fonctions d'édition : ● Ajout d'attribut ● Ajout d'élément
  8. 8. Exercices sur les minutes ● Une minute notariale est l'acte original notarié, signé par les parties en présence ainsi que par les notaires ; la minute est conservée chez le notaire à la différence de la « grosse » qui est la copie remise aux parties.
  9. 9. Exemple d'une minute notariale (AD44)
  10. 10. Exercices sur les lettres de rémission « ...La lettre de rémission est un acte de la Chancellerie par lequel le roi octroie son pardon à la suite d’un crime ou d’un délit, arrêtant ainsi le cours ordinaire de la justice, qu’elle soit royale, seigneuriale, urbaine ou ecclésiastique... » Claude Gauvard.
  11. 11. Exemple d'une lettre de rémission (AD44)
  12. 12. Les entités nommés ● Plusieurs types : on en retient deux – Personnes – Lieux ● Lieux : problèmes – Orthographe et variante : « Bretaigne » – Changement de noms de lieux ● Personnes : problèmes – Orthographe : « Lefebure » « Lefebvre » – Identité sociale
  13. 13. Les entités nommés et TEI ● <rs> chaîne de caractères <rs type="person">François Rabelais</rs> <rs type="person">sa mère</rs> <rs type="airport">Charles de Gaulle</rs>  ● <name> <name type="person">François Rabelais</name> <name type="place">Charles de Gaulle</name> <name type="person">Charles de Gaulle</name> – ou <persName> !
  14. 14. Les noms de lieux <placeName> <geogName> ● <placename> nom de lieu <placename>Paris</placename> ● <geogName> nom associé à un lieu géo. <geogName>Pont Neuf</geogName>
  15. 15. Les noms de personnes <persName> ● <surname> nom de famille ou patronyme ● <forename> prénom ● <roleName> titre et avant-nom ● <addName> épithète ● <nameLink> particules nobiliaires Exemple : « haute dame dame Suzanne de Bourbon dame de Rieux » <persName> <addName type="epithete-honneur">haute dame</addName> <roleName type="avant-nom">dame</roleName> <forename>Suzanne</forename><nameLink>de</nameLink> <surname>Bourbon</surname> <roleName type="titre">dame</roleName> de <geogName>Rieux</geogName> </persName>
  16. 16. Démonstration ● Démonstration sur les fichiers des minutes notariales et lettres de rémission – Présentation de la plate-forme – Index de chaque fichier particulier – Index du fichier général
  17. 17. Indexation ● Les index sont de plusieurs couleurs – Bleu foncé : occurrence dans le fichier ouvert – Bleu clair : occurrence régularisée dans le fichier externe ● Les index sont triés alphabétiquement; par défaut ● Externaliser signifie copier une information d'un fichier particulier dans un fichier commun à un projet. – Seul l'enrichissement commun des données est externalisé. – Le texte reste intact.
  18. 18. Index particulier ● Pour supprimer une régularisation : – un clic droit sur une occurrence régularisée, – puis sélectionner « Supprimer la référence dans ce fichier ». Attention ! Seule la suppression dans le fichier particulier est effective. ● Pour externaliser plusieurs occurrences : – Externalisation en masse n'est pas recommandée – Si plusieurs occurrences concernent la même référence : sélectionner l'occurrence de référence avec les autres.
  19. 19. Index général ● La couleur verte indique un fichier particulier suivi du nombre d'occurrences d'une même référence que l'on peut y trouver ● La suppression d'une référence entraîne aussi la suppression dans les fichiers particuliers : la couleur rouge y indique une référence morte ● La régularisation orthographique s'effectue dans le fichier général. – Attention ! Ne pas toucher à l'identifiant généré automatiquement ! ● Afficher au format HTML ● Les filtres
  20. 20. A VOUS ! http://www.wordle.net/

×