ANTIDOT - Cas client ISIDORE

831 views
771 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
831
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

ANTIDOT - Cas client ISIDORE

  1. 1. Solutions de recherche et daccès à linformationISIDORE est la plateforme daccès unifié aux données produites parla recherche francophone en sciences humaines et sociales. Elle est unsocle applicatif ouvert constitué à la fois dun moteur de recherche etdun point de diffusion des données en accès libre selon les principesdu Web Sémantique.ISIDORE est une réalisation du Très Grand Equipement ADONIS duCNRS. http://www.rechercheisidore.frContexte et objectifsToutes les disciplines des Sciences Humaines et Sociales (SHS) sont confrontées à un accroissement accéléré des donnéesnumérisées ou nativement numériques. Ces masses de données hétérogènes - sources textuelles, orales, iconographiques,audiovisuelles, images 3D, publications électroniques, séries de calculs - soulèvent de nombreuses questions : accessibilité,interopérabilité, publication, conservation, pérennité. Face à de tels enjeux, le CNRS met en oeuvre une infrastructure pour larecherche et lenseignement supérieur qui permettra daccroître la visibilité des travaux et des résultats de la recherche par unemeilleure mise à disposition des données.Fin 2009, le TGE Adonis a lancé la Le cahier des charges de la plateforme Isidore est particulièrement ambitieux,réalisation du socle de services et le tant en termes de diversité et de volumétrie des données, quen termes demoteur de recherche pour accéder fonctionnalités :aux données et documents des SHS.Cette plateforme, nommée Isidore, doit »»oissonnage ciblé des données scientifiques et des métadonnées M structurées selon des protocoles variés. Plus de 750 sources différentespermettre : constituent le corpus SHS.»» doffrir à la communauté un »» Normalisation des métadonnées et enrichissement des données en ensemble de services de traitement sappuyant sur des référentiels reconnus dans la communauté. et de diffusion des données mutualisable à haute valeur ajoutée ; »»oteur de recherche sur les données non structurées (texte M intégral) et sur les données structurées (métadonnées documentaires»» de constituer la mémoire vivante de existantes ou crées par enrichissement). la recherche en SHS ; »»ise à disposition des métadonnées enrichies afin de créer une M »» de placer les données des SHS dans boucle de rétroaction vers les producteurs de données selon les le « Web de données », la prochaine principes et technologies du Web Sémantique. évolution du Web, permettant ainsi une meilleure mise à disposition des »» I ntégration possible du moteur de recherche Isidore et des données ressources, de leurs relations et de exposées dans un autre environnement par la mise à disposition dAPI Web. leurs échanges.A lissu dun appel doffres, le CNRS a retenu les solutionsInformation Factory (AIF) et Finder Suite (AFS) dAntidotpour la réalisation de la plateforme Isidore. www.antidot.net
  2. 2. Information FactoryAntidot Information Factory (AIF) est une solution logicielle conçue spécialement pour répondre aux enjeux de valorisationet dexploitation des données non structurées ou semi structurées. Information Factory est une « machine à produire delinformation » qui industrialise la captation et le traitement des données existantes puis la mise à disposition automatiséedinformations enrichies.AIF sutilise comme un jeu de construction : pour créer des chaines detraitement, il suffit dassembler et de paramétrer des modules prêts àlemploi. Il en existe plus de 50 disponibles : odules de captation qui se connectent aux sources et m récupèrent les données ciblées ;modules de normalisation et de nettoyage des données ; odules denrichissement pour la classification, lannotation et m la mise en relation.En bout de chaine, les données enrichies ou créées peuvent êtreexposées / publiées de plusieurs façons telles que la génération defichiers ou linjection dans une base ou un triplestore RDF.Bien évidemment en bout de chaine il est possible connecter le moteur de recherche AFS afin doffrir en plus un service derecherche performant et riche sur lensemble des données.Classification des donnéesParmi les 750 sources, il en est une, larchive en ligne HAL-SHS (http://halshs.archives-ouvertes.fr) qui propose près de 30 000 documents déjà tous affectés dans un plan declassement. Cette taxonomie est assez simple et représentative du domaine des SHS, si bienquil a été décidé de létendre à lensemble de 750 sources grâce au module de classificationdAIF. Cela signifie que les millions de documents du corpus Isidore doivent être rangés dansces catégories. Vu les volumes, toute intervention manuelle est bien évidemment exclue. La première étape consiste à utiliser les 30 000 documents de HAL-SHS déjà catégorisés pour entrainer le module de classification. Celui-ci regarde pour chaque document la ou les catégories dans lesquelles ce dernier est rangé afin dapprendre. A lissu de cette phase, le classifieur génère une base de signatures sémantiques.La base de signatures ainsi générée est exploitée lors de laphase de traitement. Lorsquun document passe à travers lemodule de classification, il se voit automatiquement attribuerune ou plusieurs catégories de la taxonomie HAL-SHS. Même lesdocuments de HAL-SHS sont retraités et certains qui navaient quune catégorie sen voient affecter une seconde. Une des applications de cette classification est de pouvoir offrir, lors de la recherche, une facette (un filtre) qui sapplique à lensemble des documents et pas seulement à ceux issus de HAL-SHS. Les résultats obtenus ont été évalués et sont dexcellente qualité puisque le score de précision est supérieur à 90%. Ce sont en tout 4 classifications différentes qui sont réalisées dans Isidore puisque les éléments du corpus sont analysés et rangés selon dautres taxonomies comme les sujets et les époques historiques.
  3. 3. Gestion des sources1 Pour chacune des 750 sources à capter et enrichir, ce sont plus de 30 modules de traitement qui senchainent. Certains sont spécifiques au type de la 1 source (flux RSS, site, entrepôt OAI...). Dautres sont génériques. Générique ou spécifique, chaque module est configuré par des paramètres qui déterminent son comportement.2 La définition des sources et de leurs caractéristiques est réalisée à travers une application dédiée qui fournit ces paramètres sous forme de fichiers XML.3 Une chaine de traitement AIF a été configurée afin de transformer ces fichiers 2 3 XML de définition des sources en fichiers de configuration de la chaine et des modules AIF. Ainsi la configuration de la captation et de lenrichissement des 750 sources est auto générée et chaque ajout/modification de source depuis linterface de gestion modifie dynamiquement le comportement de lensemble de la solution. Web de données Afin de rendre les documents SHS compatibles avec le Web de données, une URI pérenne leur est attribuée si elles nen possèdent pas déjà. En effet, seules quelques rares sources (telles que la BnF) attribuent à leurs données des URI (Uniform Resource Identifier) stables et pérennes. Or lURI est lélément fondamental du Web de données : cest lidentifiant unique de la ressource par lequel le lien entre éléments est fait. Ainsi, lorsquun document a déjà une URI, celle-ci est repérée et utilisée. Sinon une URI pérenne lui est attribuée lors de la phase de normalisation. Le système de gestion des URI est Handle (www.handle.net). Un module AIF dédié est chargé de repérer si un document possède déjà une URI et sinon den demander une au système Handle. En bout de chaine AIF, un sous-ensemble choisi de métadonnées est transformé en RDF selon une ontologie cible, et ces triplets RDF sont injectés dans des entrepôts. Plusieurs triplestore sont constitués, contenant chacun les triplets nécessaires à des usages spécifiques. Ces entrepôts sont rendus accessibles par un point daccès SPARQL. Les données SHS sont ainsi exposées dans le Web de données dans une perspective dOpen Data. Respectant les principes de la négociation de contenu en vigueur sur le Web, chaque ressource informationnelle est accessible selon plusieurs formats : HTML, RDF/XML, N3.
  4. 4. Moteur de recherche Les données captées et enrichies par Antidot Information Factory sont indexées par le moteur de recherche AFS. Le moteur permet doffrir un accès fonctionnellement riche sur lensemble des données constituées : autocomplétion tolérante et structurée lors de la saisie ; ffinage dynamique des réponses grâce aux facettes. Les facettes a proposées proviennent pour certaines des métadonnées des documents, alors que dautres ont été générées par AIF lors de lenrichissement : catégories issues des étapes de classification, alignement sur des référentiels ; avigation transversale dans le corpus grâce à des fonctions n de rebond et de liens inter documents pour une assistance à la découverte dinformation ; echerche visuelle grâce à des représentations cartographiques r ou par le positionnement des documents clés sur des échelles temporelles. Résultat projet La maîtrise douvrage, le TGE Adonis, avait posé un cahier des charges ambitieux et visionnaire. Grâce au travail commun de la maitrise doeuvre CNRS (le CCSD), de lintégrateur (Sword) et du fournisseur des composants technologiques (Antidot), lensemble des défis fonctionnels et techniques ont été relevés et résolus avec succès. Le résultat est reconnu par la communauté comme une réussite indéniable. Le CNRS dispose à présent dune plateforme«L ouverte dont les services (enrichissement, maillage, recherche, navigation) peuvent être intégrés à des applications variées. Le portail Isidore en est le premier représentant. a mission principale du projet, réalisé par le très grand équipement Adonis du CNRS, était de proposer un accès unifié à des données hétérogènes et distribuées. Il sagit de valoriser des données structurées et le texte intégral associé, produits dans les laboratoires et les bibliothèques de recherche. Lunification des données et lenrichissement offre la possibilité de naviguer dans un espace documentaire et informationnel étendu permettant dexplorer des questions scientifiques nouvelles mais aussi les frontières scientifiques des disciplines. Les trois modes daccès (web, api, 3store RDF) sont complémentaires et permettent de développer des outils à géométrie variable suivant les » usages. Ainsi, la solution Information Factory dAntidot, qui est au coeur dISIDORE, correspond pleinement aux attentes du TGE Adonis car elle permet de traiter à la fois les données structurées, le texte intégral, lenrichissement, les modes accès dans le respect des standards du web sémantique ce qui est un réel plus pour nous. M. Stéphane Pouyllau co-directeur du projet Paris | Lyon | Aix-en-Provence www.antidot.net info@antidot.net +33 (0)4 72 76 03 80

×