0
Réconcilier les évènements dans le web des données<br />HoudaKhrouf<houda.khrouf@eurecom.fr><br />RaphaëlTroncy<raphael.tr...
Un évènement ?<br />Les évènements sont des observables qui regroupent<br />20/05/2011<br />Ingénierie des Connaissances 2...
Contexte<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 3<br />Besoin d’une plateforme agrégeant ...
EventMedia<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 4<br />
EventMedia<br />L’ontologie LODE<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 5<br />
EventMedia<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 6<br />
Problème : Réconciliation<br />Quelles sont les bulles du nuage de données faut-il choisir  ?<br />Requêtes SPARQL sur htt...
Problème : Réconciliation<br />Agent<br /><ul><li> Last.fm
Eventful
 MusicBrainz
 DBpedia
Freebase
 Uberblic
 New York Times</li></ul>Lieu<br /><ul><li> Last.fm
Eventful
Upcoming
 DBpedia
Freebase
 Foursquare
Upcoming SlideShare
Loading in...5
×

Events reconciliation

556

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
556
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Events reconciliation"

  1. 1. Réconcilier les évènements dans le web des données<br />HoudaKhrouf<houda.khrouf@eurecom.fr><br />RaphaëlTroncy<raphael.troncy@eurecom.fr> <br />Ingénierie des Connaissances 2011, Chambéry<br />
  2. 2. Un évènement ?<br />Les évènements sont des observables qui regroupent<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 2<br />Personnes<br />Lieux<br />Temps<br />Des expériences documentées par des Medias<br />
  3. 3. Contexte<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 3<br />Besoin d’une plateforme agrégeant et structurant toutes ces données <br /><ul><li> Event Media : description sémantique des évènements et de médias</li></ul>Objectif : Réconciliation d’Event Media avec le nuage des données <br />
  4. 4. EventMedia<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 4<br />
  5. 5. EventMedia<br />L’ontologie LODE<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 5<br />
  6. 6. EventMedia<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 6<br />
  7. 7. Problème : Réconciliation<br />Quelles sont les bulles du nuage de données faut-il choisir ?<br />Requêtes SPARQL sur http://lod.openlinksw.com<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 7<br />
  8. 8. Problème : Réconciliation<br />Agent<br /><ul><li> Last.fm
  9. 9. Eventful
  10. 10. MusicBrainz
  11. 11. DBpedia
  12. 12. Freebase
  13. 13. Uberblic
  14. 14. New York Times</li></ul>Lieu<br /><ul><li> Last.fm
  15. 15. Eventful
  16. 16. Upcoming
  17. 17. DBpedia
  18. 18. Freebase
  19. 19. Foursquare
  20. 20. Geonames</li></ul>MusicBrainz<br />Uberblic<br />Event Media<br />Évènement<br /><ul><li> Last.fm
  21. 21. Eventful
  22. 22. Upcoming
  23. 23. DBpedia
  24. 24. Freebase
  25. 25. Uberblic</li></ul>Foursquare<br />DBpedia<br />Geonames<br />Freebase<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 8<br />
  26. 26. Alignement <br /><ul><li>LODE est un modèle interopérable décrivant les évènements
  27. 27. Un thésaurus de catégories SKOS: Sport, Music, Arts, Movies, etc.</li></ul>20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 9<br />
  28. 28. SILK Framework<br />Basé sur un langage de spécification de liens Silk-LSL<br />Des transformations et des fonctions algébriques : max, min, avg, etc<br />Plusieurs métriques de similarité: <br />Syntaxique : égalité, Jaro, Leveinstein, n-gram<br />Lexicale : WordNet<br />Géographique : wgs84<br />Temporelle : date<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 10<br />
  29. 29. SILK Framework<br />Configuration SILK - LSL<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 11<br />
  30. 30. Méthodologie<br /><ul><li>Alignement par les étiquettes</li></ul>Jaro est une métrique fiable *<br /><ul><li>Alignement par les coordonnées géographiques (lieux)
  31. 31. Le score de « wgs84 » est normalisé par rapport au seuil 10 km.</li></ul>* Cohen, William W., Ravikumar, Pradeep and Fienberg, Steve. 2003. A Comparison of String Distance Metrics for Name-Matching Tasks. IIWeb 2003: 73--78. <br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 12<br />
  32. 32. Alignement des agents<br />Alignement basé sur les propriétés des agents : <br />foaf:Agent<br />rdfs:label<br /><ul><li>Exemples :
  33. 33. Donavon Frankenreiter / Donovan Frankenreiter (Jaro 0.98)
  34. 34. Birds & Batteries / Birds and Batteries (Jaro 0.70)</li></ul>Total :<br />Eventful : 61 %<br />Last.fm : 58 %<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 13<br />
  35. 35. Alignement des lieux<br />Exemples : <br /><ul><li>The Stone Bar(34.1019 ;-118.304)
  36. 36. The Stone (34.1017 ;-118.304)
  37. 37. fallharvestwinedinnerbavarianinnrestaurantfrankenmuth(43.32 ; -83.73)
  38. 38. FrankenmuthBavarianInnRestaurant(43.32 ; -83.74) </li></ul>Total :<br />Eventful : 17 %<br />Last.fm : 15 %<br />Upcoming : 36 % <br />Dist : 29 m – Score (sim): 0.98 <br />Dist : 80 m Score : 0.92<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 14<br />
  39. 39. Alignement des évènements<br />Alignement basé sur le titre, le lieu et le temps<br />Exemples :<br /><ul><li>LastFm : « Camp Bestival » à « Lulworth Castle » le 18/07/2008
  40. 40. Eventful : « New Camp Bestival Dorset » à « Lulworth Castle » le 18/07/2008</li></ul>Total :<br />Eventful : 0,4 %<br />Last.fm : 3;8 %<br />Upcoming : 4,8 %<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 15<br />
  41. 41. Alignement des évènements<br />La métrique Date de SILK est rigide <br />Upcoming : « A Season in Hell » a eu lieu du 7 novembre au 22 novembre 2008 <br />Eventful : « A Season in Hell » a eu lieu du 8 novembre 2008<br />Autres types d’évènements : sportif, militaire, mission spatiale<br />Un appariement faible pour les évènements de type sport<br />DBpedia : Alpine skiing at the 2002 Winter Olympics<br />Uberblic : Alpine skiing at the 2002 Winter Olympics – Men's slalom <br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 16<br />
  42. 42. Discussion<br />Une approche conservatrice assurant une précision élevée<br />Un bon nombre des agents appariés. Les étiquettes sont relativement des chaines de caractères courts.<br />Un nettoyage des lieux pour réduire les doublons constatés (e.gFoursquare)<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 17<br />
  43. 43. Perspectives<br />Limite de SILK : il ne supporte pas les méthodes hybrides<br />Étendre la métrique Date de SILK<br />Créer une métrique pour comparer les adresses<br />Utiliser les méthodes de machine Learning supervisé <br />Evaluation : précision et rappel<br />Assurer une version LIVE d’Event Media<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 18<br />
  44. 44. http://www.slideshare.net/khrouf<br />Merci de votre attention<br />20/05/2011<br />Ingénierie des Connaissances 2011, Chambéry<br />- 19<br />
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×