Méthodes et outils pour interrelier le web des données

2,349 views

Published on

Présentation pour le projet Web Intelligence en Novembre 2009

Published in: Technology, Business
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,349
On SlideShare
0
From Embeds
0
Number of Embeds
24
Actions
Shares
0
Downloads
58
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Méthodes et outils pour interrelier le web des données

  1. 1. Introduction Cadre de travail Outils Application Conclusions Melinda Méthodes et outils pour lier le web des données François Schare et Jérôme Euzenat Novembre 
  2. 2. Introduction Cadre de travail Outils Application Conclusions 1 Introduction 2 Cadre de travail 3 Outils 4 Application 5 Conclusions
  3. 3. Introduction Cadre de travail Outils Application Conclusions Un nuage de jeux de données
  4. 4. Introduction Cadre de travail Outils Application Conclusions Le Web sémantique Fig.: Semantic Web stack
  5. 5. Introduction Cadre de travail Outils Application Conclusions Publier des données sur le Web Quatre principes de publication 1 L'utilistation d'URI pour identier les resources 2 L'utilisation d'URI pouvant être déréférencées 3 Lorsqu'une URI est déréférencée, une description de cette resource est retournée 4 Les jeux de données ainsi publiés sont reliés vers d'autres jeux de données
  6. 6. Introduction Cadre de travail Outils Application Conclusions Lier les jeux de données Des jeux de données speciques contiennent les liens. http://www.example.org/linkset/DBPedia-MB a void:Linkset ; void:target http://www.dpbedia.org; void:target http://www.musicbrainz.org; http://www.example.org/linkset/DBPedia-MB http://www.dbpedia.org/resource/ Johann_Sebastian_Bach owl:sameAs http://www.musicbrainz.org/artist/ 24f1766e-9635-4d58-a4d4-9413f9f98a4c .
  7. 7. Introduction Cadre de travail Outils Application Conclusions Que faisons nous ? Nous proposons un cadre englobant dierentes méthodes de liage des données Nous étudions les outils existant et les plaçons dans ce cadre Nous proposons une architecture permettant d'articuler outils de liage et alignements d'ontologies
  8. 8. Introduction Cadre de travail Outils Application Conclusions Méthodologie Générale owl:sameAs URI 1 URI 2 Méthode de comparaison des ressources Fig.: Approche générale
  9. 9. Introduction Cadre de travail Outils Application Conclusions Alignement manuel des resources owl:sameAs URI 1 URI 2 Observation manuelle Fig.: Alignement manuel
  10. 10. Introduction Cadre de travail Outils Application Conclusions Mise en correspondence des identiants owl:sameAs URI 1 URI 2 Mise en équivalence des identifiants Fig.: Transformation des identiants
  11. 11. Introduction Cadre de travail Outils Application Conclusions Mise en correspondence des identiants - Exemple owl:sameAs http://www.lastfm.fr/music/ http://dbpedia.org/resource/ Johann+Sebastian+Bach Johann_Sebastian_Bach Transformation de l'URI Fig.: Exemple de transformation d'URI
  12. 12. Introduction Cadre de travail Outils Application Conclusions Alignement de données avec ontologie commune owl:sameAs URI 1 URI 2 Algorithme de comparaison des ressources décrites en fonction d'une même ontologie O1 O1 Fig.: Ontologie commune
  13. 13. Introduction Cadre de travail Outils Application Conclusions Alignement de données avec ontologie commune - Exemple mo:MusicArtist type type DBPedia Musicbrainz URI1 URI2 prénom nom prénom nom Johann- Jean- Sebastian Bach Sébastien Bach Algorithme de comparaison des ressources décrites en fonction d'une même ontologie Fig.: Exemple d'alignement entre données décrites en fonction d'une ontologie
  14. 14. Introduction Cadre de travail Outils Application Conclusions Alignement de données et ontologies diérentes owl:sameAs URI 1 URI 2 Algorithme de comparaison des ressources décrites en fonction de deux ontologies O1 Alignement O2 implicite Fig.: Alignement entre données décrites en fonction d'ontologies diérentes
  15. 15. Introduction Cadre de travail Outils Application Conclusions Exemple OpenCyc Musicbrainz Classical Music Performer mo:MusicArtist type type URI1 URI2 English ID givenname Jean-Sébastien Johann Sebastian name Bach Bach
  16. 16. Introduction Cadre de travail Outils Application Conclusions Processus et specications processus resultat instance specication de lien linkset classe matcher alignement Tab.: Processus de mise en correspondence, interrelations, et leur resultats.
  17. 17. Introduction Cadre de travail Outils Application Conclusions Critères d'analyse Degré d'automaticité L'outil est-il complètement automatique ? (boite noire) l'outil a-t'il besoin d'être paramétré par l'utilisateur ? Quel type de paramètres ? Techniques d'alignement utilisées alignement de chaînes de caractères ? fonctions externes ? propagation de similarité ? autres techniques ? Domaine : l'outil est-il spécique à un certain domaine ?
  18. 18. Introduction Cadre de travail Outils Application Conclusions Ontologies L'outil prend-il en compte les ontologies associées aux données ? L'outil permet-il d'aligner des jeux de données décrits en fonction d'ontologies diérentes ? Dans le cas où elles sont diérentes, l'outil aligne-t-il les ontologies ? Sortie Qu'est-ce que l'outil produit en sortie ? (liens owl :sameAs, autre types de liens) L'outil propose-t-il de fusionner deux jeux de données ? Jeux de données : comment l'outil accède-t-il aux données ? Post-opératoire : l'outil eectue-t-il des traitements post-opératoire ?
  19. 19. Introduction Cadre de travail Outils Application Conclusions Six outils d'interreliage RKB-CRS Service de résolution de co-référence de la base de connaissances RKB. LD-mapper Outil de liage pour l'ontologie de la musique MO. ODD Linker Outil de liage basé sur le langage SQL. RDF-AI Outil de liage et fusion de jeux de données. Silk et Silk LSL Outil de liage et language de specication de liens. Knofuss architecture Outil de liage et fusion de jeux de données.
  20. 20. Introduction Cadre de travail Outils Application Conclusions Six outils d'interreliage owl:sameAs URI 1 URI 2 Méthode de comparaison des ressources LD-Mapper ODD-Linker RKB-CRS Alignement Alignement O1 implicite explicite O2 Silk RDF-AI Knofuss Système d'alignement d'ontologies Fig.: Outils placés dans le cadre général déni
  21. 21. Introduction Cadre de travail Outils Application Conclusions Application Considerons une specication de liens entre DBPedia et Geonames : Interlink id=cities Silk LinkTypeowl:sameAs/LinkType Prefix id=rdfs namespace= SourceDataset dataSource=dbpedia var=a http://www.w3.org/2000/01/rdf-schema# / RestrictTo Prefix id=dbpedia namespace= ?a rdf:type dbpedia:City http://dbpedia.org/ontology/ / /RestrictTo Prefix id=gn namespace= /SourceDataset http://www.geonames.org/ontology# / TargetDataset dataSource=geonames var=b RestrictTo DataSource id=dbpedia ?b rdf:type gn:P EndpointURIhttp://demo_sparql_server1/sparql /RestrictTo /EndpointURI /TargetDataset Graphhttp://dbpedia.org/Graph LinkCondition /DataSource AVG Compare metric=jaroSimilarity DataSource id=geonames Param name=str1 path=?a/rdfs:label / EndpointURIhttp://demo_sparql_server2/sparql Param name=str2 path=?b/gn:name / /EndpointURI /Compare Graphhttp://sws.geonames.org//Graph Compare metric=numSimilarity /DataSource Param name=num1 path=?a/dbpedia:populationTotal / Thresholds accept=0.9 verify=0.7 / Param name=num2 path=?b/gn:population / Output acceptedLinks=accepted_links.n3 /Compare verifyLinks=verify_links.n3 /AVG mode=truncate / /LinkCondition /Interlink /Silk
  22. 22. Introduction Cadre de travail Outils Application Conclusions Application Alignement implicitement contenu dans la specications de liens. align:map [ :map2 a align:Cell; align:entity1 [ a align:Property; edoal:and dbpedia:populationTotal. :dbp-geo a align:Alignment; edoal:and [ a edoal:PropertyDomainRestriction; align:onto1 http://dbpedia.org/ontology/; edoal:domain dbpedia:City. align:onto2 http://www.geonames.org/ontology#; ]; align:map [ :map1 a align:Cell; align:entity2 [ a align:Property; align:entity1 dbpedia:City; edoal:and gn:population; align:entity2 gn:P; edoal:and [ a edoal:PropertyDomainRestriction; align:relation align:subsumedBy. edoal:domain gn:P. ]; ]; align:relation align:equivalent. align:map [ :map2 a align:Cell; ]; align:entity1 dbpedia:populationTotal; align:map [ :map2 a align:Cell; align:entity2 gn:population; align:entity1 [ a align:Property; align:relation align:equivalent. edoal:and rdfs:label. ]; edoal:and [ a edoal:PropertyDomainRestriction; align:map [ :map3 a align:Cell; edoal:domain dbpedia:City. align:entity1 rdfs:label; ]; align:entity2 gn:name; align:entity2 [ a align:Property; align:relation align:equivalent. edoal:and gn:name; ]. edoal:and [ a edoal:PropertyDomainRestriction; edoal:domain gn:P. ]; align:relation align:equivalent. ].
  23. 23. Introduction Cadre de travail Outils Application Conclusions Application Nous pouvons dès lors simplier la specication de liens. UseAlignment rdf:resource=#dbp-geo / Interlink id=cities LinkTypeowl:sameAs/LinkType LinkCell rdf:resource=#map1 / LinkCondition AVG Compare metric=jaroSimilarity CellParam rdf:resource=#map2 / /Compare Compare metric=numSimilarity CellParam rdf:resource=#map3 / /Compare /AVG /LinkCondition Thresholds accept=0.9 verify=0.7 / Output acceptedLinks=accepted_links.n3 verifyLinks=verify_links.n3 mode=truncate / /Interlink
  24. 24. Introduction Cadre de travail Outils Application Conclusions Conclusions Nous proposons un cadre général de liaison des ressources sur le Web des données Nous avons présenté les outils actuels et les avons positionné par rapport au cadre déni Nous avons concrétisé nos propositions sur un exemple articulant alignment d'ontologies et spécications de liens pour le Web des données Nos travaux actuels nous guident vers toujours plus d'automatisation pour la specication de liens : Est il possible de construire des specications de liens plus génériques ? (attachées aux jeux de données ou aux ontologies) Peut on trouver des méthodes permettant de trouver de faßon automatique l'ensemble de propriétés permettant de determiner l'equivalence entre deux ressources ?
  25. 25. Introduction Cadre de travail Outils Application Conclusions Pour en savoir plus http://melinda.inrialpes.fr François Schare et Jérôme Euzenat. Un cadre général pour lier le web des données. RFIA 2010. Caen, France.

×