Moteurs de recherche et web sémantique

  • 4,914 views
Uploaded on

Le Web sémantique est-il un n-ième standard de représentation des données ou une nouvelle façon d’aborder la recherche d’information ? …

Le Web sémantique est-il un n-ième standard de représentation des données ou une nouvelle façon d’aborder la recherche d’information ?

L'utilisation du terme « Sémantique » a souvent été porteur de confusions donnant à penser que le Web sémantique visait la compréhension du langage naturel par les machines. Même si les objectifs réels du Web sémantique semblent en réalité éloignées des techniques du traitement automatique de la langue, les technologies du Web sémantique n'en restent pas moins intéressantes pour les solutions d'accès et de recherche d'information. En effet, celles-ci sont déployée dans des contextes de plus en plus complexes mêlant données structurées et données non structurées et, dans ce cadre, les technologies du Web sémantique permettent de résoudre de nombreux problèmes de par le cadre d'interopérabilité et l'écosystème de standards et d'outils qu'elles offrent.

Impliqués depuis plusieurs années dans le domaine, nous montrerons comment les technologies du Web sémantique aide les équipes Antidot à mieux gérer, traiter et valoriser les données de leurs clients. Dans cette présentation, nous parcourrons une palette assez large de manipulations des objets sémantiques pratiquées couramment dans nos réalisations et basées sur les technologies du Web sémantique.

Nous illustrerons notre exposé par des réalisations concrètes et nous montrerons en quoi l’utilisation du Web sémantique nous a épargné des heures de développements spécifiques et nous a permis d’adresser des problématiques de plus en plus complexes.

Nous aborderons notamment l’extension sémantique, la navigation par facette, la mise en relation de silos d’informations hétérogènes, l’alignement des données sur des référentiels, l’utilisation du Web des données et d’autres techniques originales que nous avons développées pour la nouvelle version d’AFS.

More in: Technology , Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
4,914
On Slideshare
0
From Embeds
0
Number of Embeds
4

Actions

Shares
Downloads
0
Comments
0
Likes
10

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Web sémantiqueetmoteurs de recherche
    http://www.antidot.net
    Jérôme Mainka
    SemWeb.pro
    17 janvier 2011
  • 2. Antidot
    Cœur de métier
    • Solution de recherche et d’accès à l’information
    Compétences
    • Editeur, hébergeur, conseil et intégrateur
    Fiche d’identité
    • Création en 1999
    • 3. Implantation : Paris, Lyon, Aix en Provence
    • 4. Forte croissance 13eme croissance française au classement
    Solutions
    • AFS : moteur de recherche
    • 5. CKS : services collaboratifs
  • Quelques références
    Média
    Entreprises
    eCommerce
    Institutions
    Santé
  • 6. Moteur de recherche
    Recherche plein-texte vs recherche structurée
  • 7. Recherche plein texte
    Plus que faire correspondre des octets
  • 8. Synonymie
    car@en
    Voiture
    Bagnole
    char@fr_CA
  • 9.
  • 10. Hyponymie / Méronymie
  • 11.
  • 12. Méronymie/Holonymie
  • 13.
  • 14. Vocabulaire SKOS
    Des concepts : classe skos:Concept
    Des relations sémantiques :
    skos:broader, narrower
    skos:exactMatch, closeMatch
    Des libellés
    skos:prefLabel, altLabel, hiddenLabel
  • 15. Sémantique
    Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur.
    skos:broaderTransitive
    skos:narrower
    skos:narrower
    skos:broader
    skos:broader
    skos:prefLabel
    skos:altLabel
    skos:prefLabel
    skos:altLabel
    skos:prefLabel
    skos:altLabel
    Lorem ipsum
  • 16. Inférence
    Il ne s’agit évidemment pas d’apprendre par cœur les propriétés sémantiques du vocabulaire : rdfs, owl est suffisant pour l’essentiel.
    Exemple :
    skos:broader rdfs:subPropertyOf skos:broaderTransitive .
    skos:broaderTransitive a owl:TransitiveProperty .
    skos:narrower owl:inverseOf skos:broader .
  • 17. Clés du succès
    Les libellés peuvent être soumis à des normalisations :
    "voyages" = "voyage"
    "Mainka" = "MNK"
    "Mainka" = "aiinkamank »
    Indexation / Requête = offline / online
    Structure de stockage
    m taille du référentiel
    n taille du texte à indexer :
    Indexation en O(n log m)
  • 18. Recherche structurée
  • 19. Description des facettes
    <PériodeHistorique> a skos:OrderedCollection ;
    skos:memberList ( <ÉpoqueContemporaine>
    <ÉpoqueModerne>
    <MoyenÂge> ) .
    <Discipline> a skos:Collection ;
    skos:member <AnthropologieBiologique> ,
    <Démographie> ,
    <Droit> .
    <Facets> a skos:OrderedCollection ;
    skos:memberList ( <PériodeHistorique>
    <Discipline> ) .
  • 20. Ontologies du domaineOntologies de navigation
    Ontologies du domaine pas forcément adaptées à une interface de navigation
    Nécessité de transformer les ontologies du domaine pour les faire correspondre aux besoins de la navigation.
    Prise en compte de besoins utilisateurs / besoins métiers.
    2 approches :
    Formules N3 :
    { ?doc <published> 2001 . } => { ?doc afs:subject <p2001> . } .
    SPARQL :
    CONSTRUCT { ?doc afs:subject <p2001> . } WHERE { ?doc <published> 2001 . }
  • 21. Annotations
    À partir de règles
    À partir du contenu plein texte (extraction d’entités, classification automatique)
    Inférence
    { ?doc afs:subject [ skos:broaderTransitive ?c2 . ] . }=> { ?doc afs:subject ?c2 . } .
    Une facette est une annotation particulière
  • 22. Affichage
    Tri
    OrderedCollection
    Tri alphabétique
    Tri par comptage
    Gestion des données de grandes tailles
    Paging des valeurs de facettes
    Support des opérateurs AND, OR, NOT.
  • 23. Un modèle de document unifié ?
    Pour mettre en place un service de recherche :
    Structures molles
    Concepts simples: Annotations, Facettes, Titre, URL, Plein texte, etc.
    Format pivot RDF
    Mapping des documents via une chaîne de traitements élémentaires : AFS-PaF (Pipes & Filters)
  • 24.
    • Créer des chaînes de traitement par assemblage de modules
    Sources de données
    Module connecteur
    Modules de transformation et enrichissement
  • 25.
    • Les données et enrichissements sont exportés en RDF en bout de chaine
    • 26. Les triplets générés sont exploités
    pour retour vers les sources sous forme normalisée
    pour traiter des requêtes complexes
    pour une exposition dans le Web de données
    Génération
    Chargement de l’entrepôt
    Entrepôt RDF
    Fichiers de triplets
    Corpus
  • 27.
    • AFS et SPARQL sont des Web Service techniques
    • 28. Ils sont enrobés dans une couche métier
    un Web Service applicatif qui permet la négociation de contenu
    Description
    XML
    Description
    RDF
    Document
  • 29.
    • Le document
    est composite
    est dynamique
    évolue dans le temps
    est un objet à gérer
    à accéder de façonunifiée
  • 30. Des données partout
    RéférentielDisciplinesHAL-SHS
    RéférentielAuteursHAL-SHS
    RéférentielOrganisationHAL-SHS
    RéférentielCatégoriesCalenda
    RéférentielThésaurus WSIAF
    RéférentielPactols
    RéférentielGeonames
    RéférentielRameau
    RéférentielLexvo
    ISIDORE
  • 31. Conclusion
    Le Web sémantique : ça sert (ça marche, c’est « simple »)
    Rester modeste :
    Objectifs
    Stratégie
    Mise en œuvre
    Plein de sujets d’évolution
    Extraction de concepts
    Alignement automatique d’ontologies