Journée d’étude 
Outils, méthode, corpus : 
la modélisation des données en SHS 
Introduction 
Décrire et relier 
Emmanuell...
Des cas concrets de mise en oeuvre des technologies du web 
sémantique : 
 Identifier et indexer l’iconographie des monum...
Décrire et relier : la mise en oeuvre de l’interopérabilité 
1) Les ontologies 
2) Les vocabulaires contrôlés 
3) Les lien...
Les ontologies : des modèles de description des données 
 le format SKOS (Simple Knowledge Organization System) utilisé p...
Les vocabulaires contrôlés et les notices d’autorité : 
un rôle de pivot 
 Library of Congress Subject Headings (LCSH) 
...
Les liens vers d’autres jeux de données de référence 
 multiplier les points d’entrée dans le réseau du web sémantique 
...
Modélisation et interprétation 
• relation associative (related, see also) 
Relation partie/tout : 
• relation générique (...
Modélisation et interprétation 
 La mention des sources et du contexte de production des données 
 L’expression de l’inc...
مسجد قايتباي 
مسجد قائت باي 
masǧid Qāytbāy 
masǧid Qāʾit Bāy 
masjid Qāytbāy 
masjid Qāʼit Bāy 
masdjid Ḳāʾit Bāy 
gâma’ ...
Nom en arabe : مسجد قائت باي ; مسجد قايتباي 
Translittération ISO : masǧid Qāytbāy ; masǧid Qāʾit Bāy 
Translittération AL...
http://invisu/CairoGazetteer/ 
monuments/8 
" مسجد قايتباي " 
skos:prefLabel@ar 
" masǧid Qāytbāy " 
skos:prefLabel@fr 
" ...
Complexe funéraire du sultan 
Qaytbay (Qāytbāy), édifié dans le 
cimetière nord, entre 1472 et 
1474 (AH 877-879) . Attent...
La diffusion et la valorisation de la recherche 
sur le web de données 
 l’importance de la création de notices d’autorit...
Upcoming SlideShare
Loading in …5
×

Emmanuelle Perrin présentation de la journée d'étude Outils, méthodes, corpus : la modélisation des données en SHS (17 novembre 2014)

1,095 views

Published on

Présentation de la journée d'étude Outils, méthodes, corpus : la modélisation des données en SHS (Paris, Institut national d'histoire de l'art, 17 novembre 2014)

Published in: Data & Analytics
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,095
On SlideShare
0
From Embeds
0
Number of Embeds
7
Actions
Shares
0
Downloads
8
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • L’objectif de cette journée est de réunir des laboratoires de recherche et des institutions qui utilisent les technologies du web sémantique pour la structuration et la diffusion de leurs travaux.
  • Le web sémantique vise la mise en œuvre d’un réseau où des données structurées sont partagées et reliés. La description normalisée des données recouvre 3 aspects : les ontologies, les vocabulaires contrôlés et les liens avec d’autres jeux de données de référence.
  • Les ontologies fournissent des modèles de description des données.
    Plusieurs d’entre elle seront évoquées aujourd’hui :
    - le format SKOS utilisé pour la publication des thésaurus
    - les FRBR destinés à la description de l’information bibliographique
    - CIDOC-CRM pour la description de l’information relative au patrimoine culturel
    - FRBRoo, qui harmonise les spécifications des FRBR avec le modèle CIDOC-CRM
    Pour la mise en œuvre de l’interopérabilité entre différentes bases de données, nous verrons avec les exemples de Biblissima et du portail Claros, que les ontologies sont utilisées pour créer des alignements entre des données d’origine et de formats différents. Quant au projet Symogih, il prévoit d’utiliser une « ontologie maison », qui correspond exactement au projet, pour l’aligner ensuite sur d’autres modèles
  • Les vocabulaires contrôlés et les notices d’autorité, comme les vedettes de la Library of Congress (LCSH), Rameau ou le fichier d’autorité international virtuel (Viaf), jouent un rôle de pivot pour l’interopérabilité des données, comme nous le verrons avec l’identifiant international ISNI.
  • Enfin, en multipliant les liens vers d’autres jeux de données, on multiplie les points d’entrée dans le réseau du web sémantique. Ces liens permettent aussi d’enrichir les indexations, notamment grâce au multilinguisme.
  • Les solutions qu’apporte la modélisation des données, tout comme les questions qu’elle soulève pourront constituer le fil conducteur de cette journée.
    Le travail de modélisation vise à décrire explicitement toutes les informations qui définissent un objet d’étude. Si les ontologies proposent des modèles de description communs, un même type de relation peut cependant être représenté différemment. Je reprends ici l’exemple donné par Antoine Isaac dans son article sur les référentiels. La relation partie/tout peut être considérée comme une relation associative ou générique. De même, la relation générique peut exprimer des liens hiérarchiques (oncologie/médecine), des liens instance/classe (Le Monde/journaux) ou des liens sous-classe/classe (chat/mammifères).
  • Une autre question intéressante peut être l’utilisation de ces modèles d’organisation de l’information pour rendre compte des aspects essentiels de la recherche en sciences humaines :
    - la mention des sources et du contexte de production des données
    - l’expression de l’incertitude, de l’incomplétude, de l’interprétation ou de la révision.
    Le soin apporté à la production des données est en effet déterminant pour leur réutilisation.
    Dans cette perspective, le projet Symogih propose une distinction intéressante entre les données « brutes » et les informations issues du travail de l’historien.
    Je voudrais enfin aborder une dernière question au sujet l’alignement avec les référentiels en présentant brièvement les travaux de l’USR InVisu.
  • Ces travaux concernent l’iconographie des monuments du Caire. Ce type de corpus soulève des difficultés d’identification et d’indexation, en raison des multiples variantes issues de la translittération, en caractères latins, des toponymes arabes.
    Comme on le voit ici avec l’exemple du mausolée du sultan Qaytbay (1468-1496), ces variantes aboutissent à une véritable cacographie et posent de réels problèmes pour la recherche d’informations, le traitement documentaire et l’interopérabilité des données.
  • Les travaux d’InVisu visent la mise à disposition d’un référentiel trilingue arabe, français et anglais, qui recense les variantes orthographiques des toponymes, pour identifier et localiser les 600 édifices classés du Caire.
    Les informations contenues dans la notice descriptive d’un monument ont été converties au format skos : elles donnent notamment le nom du monument en arabe et selon des translittérations normalisées, sa typologie, sa localisation, ses dates de construction, le nom de son fondateur, les variantes du nom et leur sources.
    Le choix du format skos s’est imposé d’abord qu’il est le format de publication des thésaurus et aussi pour sa simplicité, qui ne permet pas d’entrer dans un niveau de détail très fin, mais qui garantit un bon niveau d’interopérabilité.
  • Pour les informations terminologiques, le format SKOS permet de gérer le multilinguisme en définissant un « terme préféré » par langue. Les variantes sont décrites comme des « termes alternatifs ». Ces variantes sont également dotées d’un identifiant afin de pouvoir indiquer leur source bibliographique dans une note.
  • Pour les relations génériques et associatives, la typologie du monument est exprimée par la relation à un terme générique (skos:broader). Les types de monuments sont également pourvus d’un identifiant pour indiquer leur nom en plusieurs langues et les aligner sur d’autres référentiels. Les sources sont parfois en désaccord sur la typologie d’un monument et il est possible d’exprimer ici cette incertitude en reliant un monument à plusieurs termes génériques.
    En lien avec d’autres référentiels (comme data.bnf, Library of Congress, GeoNames, VIAF, ISNI), le monument est associé (skos:relatedMatch) à son fondateur et à son quartier.
    Une note propose une notice descriptive, dans laquelle on a indiqué tout ce que l’on ne pouvait pas exprimer en SKOS.
  • Dans le cadre de ce travail, comme dans tous les domaines de recherche spécialisés, apparaît le problème de l’alignement avec les grands référentiels, dans lesquelles les données que l’on traite sont parfois absentes.
    Pour finir, je voudrais souligner l’importance, pour la diffusion et la valorisation des données de la recherche, de la création de notices d’autorité pour les personnes comme pour les lieux, ce qui suppose la mise en place de nouvelles formes de collaboration entre les institutions expertes dans la production de vocabulaires contrôlés et les laboratoires de recherche.
  • Emmanuelle Perrin présentation de la journée d'étude Outils, méthodes, corpus : la modélisation des données en SHS (17 novembre 2014)

    1. 1. Journée d’étude Outils, méthode, corpus : la modélisation des données en SHS Introduction Décrire et relier Emmanuelle Perrin (InVisu, USR 3103 CNRS-INHA)
    2. 2. Des cas concrets de mise en oeuvre des technologies du web sémantique :  Identifier et indexer l’iconographie des monuments du Caire  Enrichir le catalogue de la bibliothèque de l’Institut dominicain d’études orientales pour mettre en évidence l’intertextualité entre les oeuvres classiques  Mettre en oeuvre l’interopérabilité entre différentes bases de données sur le patrimoine écrit du Moyen Âge et de la Renaissance avec Biblissima, et sur l’antiquité gréco-romaine avec le portail Claros  Modéliser et mutualiser l’information historique avec le projet SyMoGIH  Modéliser le transfert des savoirs sur l’art avec le projet LexArt
    3. 3. Décrire et relier : la mise en oeuvre de l’interopérabilité 1) Les ontologies 2) Les vocabulaires contrôlés 3) Les liens vers d’autres jeux de données de référence
    4. 4. Les ontologies : des modèles de description des données  le format SKOS (Simple Knowledge Organization System) utilisé pour la publication des thésaurus  les FRBR (Functional Requirements of Bibliographic Records) destinés à la description de l’information bibliographique  CIDOC-CRM pour la description de l’information relative au patrimoine culturel  FRBRoo (object oriented), qui harmonise les spécifications des FRBR avec le modèle CIDOC-CRM
    5. 5. Les vocabulaires contrôlés et les notices d’autorité : un rôle de pivot  Library of Congress Subject Headings (LCSH)  Rameau  Fichier d’autorité international virtuel (VIAF)  ISNI (International Standard Name Identifier)
    6. 6. Les liens vers d’autres jeux de données de référence  multiplier les points d’entrée dans le réseau du web sémantique  enrichir les indexations
    7. 7. Modélisation et interprétation • relation associative (related, see also) Relation partie/tout : • relation générique (broader) • lien hiérarchique (oncologie/médecine) Relation générique : • lien instance/classe (Le Monde/journaux) • lien sous-classe/classe (chat/mammifères) A. ISAAC, « Les référentiels : typologie et interopérabilité », Le Document numérique à l’heure du web de données, Paris, ADBS Éditions, 2012, p. 95.
    8. 8. Modélisation et interprétation  La mention des sources et du contexte de production des données  L’expression de l’incertitude, de l’incomplétude, de l’interprétation et de la révision  L’enjeu de la réutilisation des données
    9. 9. مسجد قايتباي مسجد قائت باي masǧid Qāytbāy masǧid Qāʾit Bāy masjid Qāytbāy masjid Qāʼit Bāy masdjid Ḳāʾit Bāy gâma’ Qâyd bey mosquée sépulcrale de Qaytbay mosquée sépulcrale de Qaïtbay mosquée de Quaït Bey mosquée sépulcrale de Kaïtbay Mosquée funéraire du sultan Kâïtbâï mosquée de Qâïtbâï madrasa Kaitbay tomba Kerim Kayt bey Kaid Bey mosque and mausoleum of sultān Qāytbāy masjid al-sultan Qaytbay
    10. 10. Nom en arabe : مسجد قائت باي ; مسجد قايتباي Translittération ISO : masǧid Qāytbāy ; masǧid Qāʾit Bāy Translittération ALA-LC : masjid Qāytbāy ; masjid Qāʼit Bāy Numéro d’inventaire : 99 Typologie (ar) : تربة ; مدرسة ; جامع Typologie (fr) : mosquée, madrasa, mausolée Localisation par qism (ar) : الجمالية Localisation par qism (iso) : al-Ǧamāliyyaẗ Adresse : cimetière nord Coordonnées géographiques : Latitude : 30°02′38″ Longitude : 31°16′30″ Date de construction (calendrier hégirien) : 877-879 Date de construction (calendrier grégorien) : 1472-1474 Fondateur : قايتباي Liens : http://www.geonames.org/8617830 Notice : Complexe funéraire du sultan Qaytbay (Qāytbāy), édifié dans le cimetière nord, entre 1472 et 1474 (AH 877-879). Ce complexe comprend également une loggia (n° 101), un ensemble de logements (n° 104) et un abreuvoir (n° 183). Attention à ne pas confondre ce monument avec la mosquée du même nom (n° 223), construite en 1475, à proximité de la mosquée d’Ibn Tulun (Ibn Ṭulūn ; n° 220), dans le quartier d’al-Sayyida Zaynab (al-Sayyidaẗ Zaynab). Variantes masdjid Ḳāʾit Bāy [Encyclopédie de l’Islam] gâma’ Qâyd bey [Description de l’Égypte] mosquée sépulcrale de Qaytbay [E. Prisse d’Avennes] mosquée sépulcrale de Qaïtbay [E. Prisse d’Avennes] mosquée de Quaït Bey [E. Prisse d’Avennes] mosquée sépulcrale de Kaïtbay [E. Prisse d’Avennes] mosquée funéraire du sultan Kâïtbâï [CCMAA, 1914] mosquée de Qâïtbâï [CCMAA, 1918] madrasa Kaitbay [G. Wiet] tomba Kerim Kayt bey [B. Facchinelli] Kaid Bey [B. Facchinelli] mosque and mausoleum of Sultān Qāytbāy [IMM] masjid al-Sultan Qaytbay [AN]
    11. 11. http://invisu/CairoGazetteer/ monuments/8 " مسجد قايتباي " skos:prefLabel@ar " masǧid Qāytbāy " skos:prefLabel@fr " masjid Qāytbāy " skos:prefLabel@en Les informations terminologiques http://invisu/CairoGazetteer/ monuments_variants/116 skos: altLabel " Mosquée funéraire du sultan Kâïtbâï " skos:prefLabel Référence bibliographique skos:note http://invisu/CairoGazetteer/ monuments_variants/117 skos:note skos:prefLabel Référence bibliographique " mosquée de Qâïtbâï " skos: altLabel les « termes préférés » les « termes alternatifs »
    12. 12. Complexe funéraire du sultan Qaytbay (Qāytbāy), édifié dans le cimetière nord, entre 1472 et 1474 (AH 877-879) . Attention à ne pas confondre ce monument avec la mosquée du même nom (n° 223), construite en 1475, près de la mosquée d’Ibn Tulun (Ibn Ṭulūn). Numéro d’inventaire : 99 Coordonnées géographiques : N 30°02′38″ E 31°16′30″ http://invisu/CairoGazetteer/ monuments/7 skos:definition@fr http://invisu/CairoGazetteer/ typology/7 skos:relatedMatch http://www.geonames.org/917 9994/northern-cemetery.html http://invisu/CairoGazetteer/ typology/4 skos: broader skos: broader skos:prefLabel@ar skos:prefLabel@fr skos:prefLabel@en " تربة " " mausolée " " mausoleum " skos:prefLabel@ar skos:prefLabel@fr skos:prefLabel@en skos:relatedMatch http://isni.org/isni/000000011 5574435 http://www.geonames.org/ 8617830 skos: exactMatch http://data.bnf.fr/ark:/ 12148/cb11932525p http://id.loc.gov/author ities/subjects/sh850823 32.html "مسجد " " mosquée " " mosque " skos: exactMatch fondateur quartier typologie localisation Les relations génériques et associatives
    13. 13. La diffusion et la valorisation de la recherche sur le web de données  l’importance de la création de notices d’autorité pour les personnes et les lieux  de nouvelles formes de collaboration entre les institutions expertes dans la production de vocabulaires contrôlés et les laboratoires de recherche

    ×