Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
XML TEI : un outil méthodologique
   pour la recherche en SHS
Atelier pratique. Indexation d'un corpus TEI à partir
      ...
Plan
●   La plate-forme Millefeuille
        –   Le projet Millefeuille
        –   La plate-forme
●   Les entités nommés ...
La partie « Atelier »
●   Présentation :
        –   de la plate-forme
        –   indexation
●   Démonstration
●   Atelie...
Le projet Millefeuille
                  2006- 2007
●   Projet Millefeuille : Archives nationales, Ecole
    nationale des...
Le projet Millefeuille
                  2006- 2007
●   Projet Millefeuille 2006-2007:
        –   Emacs, une plate-forme ...
La plate-forme Millefeuille
●   Eclipse
       –   Éditeur XML : logiciel libre
●   Plugin (module accessoire ou “greffon”...
A savoir !
●   Le système de perspective Millefeuille : par
    défaut Eclipse propose la perspective Java
●   Structure d...
Exercices sur les minutes
●   Une minute notariale est l'acte original
    notarié, signé par les parties en présence
    ...
Exemple d'une minute notariale (AD44)
Exercices sur les lettres de
        rémission
  « ...La lettre de rémission est un acte de la
    Chancellerie par lequel...
Exemple d'une lettre de rémission (AD44)
Les entités nommés
●   Plusieurs types : on en retient deux
        –   Personnes
        –   Lieux
●   Lieux : problèmes
...
Les entités nommés et TEI
●   <rs>       chaîne de caractères
    <rs type="person">François Rabelais</rs>
    <rs type="p...
Les noms de lieux
     <placeName> <geogName>
●   <placename> nom de lieu
    <placename>Paris</placename>
●   <geogName> ...
Les noms de personnes
                <persName>
●   <surname> nom de famille ou patronyme
●   <forename> prénom
●   <role...
Démonstration
●   Démonstration sur les fichiers des minutes
    notariales et lettres de rémission
       –   Présentatio...
Indexation
●   Les index sont de plusieurs couleurs
       –   Bleu foncé : occurrence dans le fichier ouvert
       –   B...
Index particulier
●   Pour supprimer une régularisation :
        –   un clic droit sur une occurrence régularisée,
      ...
Index général
●   La couleur verte indique un fichier particulier suivi du
    nombre d'occurrences d'une même référence q...
A VOUS !




http://www.wordle.net/
Upcoming SlideShare
Loading in …5
×

N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

1,656 views

Published on

Partie atelier de la séance consacrée à la XML TEI du séminaire Digital Humanities de l'EHESS 2009-2010

Published in: Education
  • Be the first to comment

N. Dufournaud : XML TEI : un outil méthodologique pour la recherche en SHS. Atelier pratique

  1. 1. XML TEI : un outil méthodologique pour la recherche en SHS Atelier pratique. Indexation d'un corpus TEI à partir d'une plateforme collaborative. EHESS – 3 février 2010 Nicole Dufournaud Ingénieure de recherche CESR Tours Chercheuse en Histoire
  2. 2. Plan ● La plate-forme Millefeuille – Le projet Millefeuille – La plate-forme ● Les entités nommés : – Les lieux – Les noms de personnes
  3. 3. La partie « Atelier » ● Présentation : – de la plate-forme – indexation ● Démonstration ● Atelier : – Exercices encodés – 1 exercice à encoder avec <persName> <placeName> <geogName>
  4. 4. Le projet Millefeuille 2006- 2007 ● Projet Millefeuille : Archives nationales, Ecole nationale des Chartes, IDHE de l'Université Paris I et l'INRIA (2006-2007) – Encodage des almanachs royaux, nationaux et impériaux entre 1750 et 1850 – Création d'une plate-forme collaborative qui autorise un travail collectif : un véritable outil de travail mais un prototype ● Créé par Félicien François sur une idée de Jean-Daniel Fekete (INRIA)
  5. 5. Le projet Millefeuille 2006- 2007 ● Projet Millefeuille 2006-2007: – Emacs, une plate-forme de travail efficace et souple: recherche dans le corpus facile (grep et agrep pour la recherche approximative), gestion des versions de documents (cvs) et convertisseur de dates – Inconvénient : lourd apprentissage et aspect rebutant pour les non-initiés – Préparer la seconde phase du projet
  6. 6. La plate-forme Millefeuille ● Eclipse – Éditeur XML : logiciel libre ● Plugin (module accessoire ou “greffon” ou “extension”) : – Affichage des documents en HTML – Création et génération d'index – Filtres et navigation dans les index ● Co-développé par l'IRHT (Richard Walter) et l'INRIA (JD Fekete) – Troisième version sur le site de Telma http://www.cn-telma.fr/ (février 2010)
  7. 7. A savoir ! ● Le système de perspective Millefeuille : par défaut Eclipse propose la perspective Java ● Structure du document XML/TEI – L'affichage se fait sous forme d'arbre. – Le menu contextuel (bouton droit de la souris) propose des fonctions d'édition : ● Ajout d'attribut ● Ajout d'élément
  8. 8. Exercices sur les minutes ● Une minute notariale est l'acte original notarié, signé par les parties en présence ainsi que par les notaires ; la minute est conservée chez le notaire à la différence de la « grosse » qui est la copie remise aux parties.
  9. 9. Exemple d'une minute notariale (AD44)
  10. 10. Exercices sur les lettres de rémission « ...La lettre de rémission est un acte de la Chancellerie par lequel le roi octroie son pardon à la suite d’un crime ou d’un délit, arrêtant ainsi le cours ordinaire de la justice, qu’elle soit royale, seigneuriale, urbaine ou ecclésiastique... » Claude Gauvard.
  11. 11. Exemple d'une lettre de rémission (AD44)
  12. 12. Les entités nommés ● Plusieurs types : on en retient deux – Personnes – Lieux ● Lieux : problèmes – Orthographe et variante : « Bretaigne » – Changement de noms de lieux ● Personnes : problèmes – Orthographe : « Lefebure » « Lefebvre » – Identité sociale
  13. 13. Les entités nommés et TEI ● <rs> chaîne de caractères <rs type="person">François Rabelais</rs> <rs type="person">sa mère</rs> <rs type="airport">Charles de Gaulle</rs>  ● <name> <name type="person">François Rabelais</name> <name type="place">Charles de Gaulle</name> <name type="person">Charles de Gaulle</name> – ou <persName> !
  14. 14. Les noms de lieux <placeName> <geogName> ● <placename> nom de lieu <placename>Paris</placename> ● <geogName> nom associé à un lieu géo. <geogName>Pont Neuf</geogName>
  15. 15. Les noms de personnes <persName> ● <surname> nom de famille ou patronyme ● <forename> prénom ● <roleName> titre et avant-nom ● <addName> épithète ● <nameLink> particules nobiliaires Exemple : « haute dame dame Suzanne de Bourbon dame de Rieux » <persName> <addName type="epithete-honneur">haute dame</addName> <roleName type="avant-nom">dame</roleName> <forename>Suzanne</forename><nameLink>de</nameLink> <surname>Bourbon</surname> <roleName type="titre">dame</roleName> de <geogName>Rieux</geogName> </persName>
  16. 16. Démonstration ● Démonstration sur les fichiers des minutes notariales et lettres de rémission – Présentation de la plate-forme – Index de chaque fichier particulier – Index du fichier général
  17. 17. Indexation ● Les index sont de plusieurs couleurs – Bleu foncé : occurrence dans le fichier ouvert – Bleu clair : occurrence régularisée dans le fichier externe ● Les index sont triés alphabétiquement; par défaut ● Externaliser signifie copier une information d'un fichier particulier dans un fichier commun à un projet. – Seul l'enrichissement commun des données est externalisé. – Le texte reste intact.
  18. 18. Index particulier ● Pour supprimer une régularisation : – un clic droit sur une occurrence régularisée, – puis sélectionner « Supprimer la référence dans ce fichier ». Attention ! Seule la suppression dans le fichier particulier est effective. ● Pour externaliser plusieurs occurrences : – Externalisation en masse n'est pas recommandée – Si plusieurs occurrences concernent la même référence : sélectionner l'occurrence de référence avec les autres.
  19. 19. Index général ● La couleur verte indique un fichier particulier suivi du nombre d'occurrences d'une même référence que l'on peut y trouver ● La suppression d'une référence entraîne aussi la suppression dans les fichiers particuliers : la couleur rouge y indique une référence morte ● La régularisation orthographique s'effectue dans le fichier général. – Attention ! Ne pas toucher à l'identifiant généré automatiquement ! ● Afficher au format HTML ● Les filtres
  20. 20. A VOUS ! http://www.wordle.net/

×