DBpedia - Un hub de liens dans le web des données

2,671 views
2,593 views

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,671
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
61
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide
  • DBpedia - Un hub de liens dans le web des données

    1. 1. DBpedia Un hub de liens dans le web des données Christian Becker Freie Universität Berlin Paris. Mars 31, 2009
    2. 2. Bonjour <ul><li>Nom </li></ul><ul><ul><li>Christian Becker </li></ul></ul><ul><li>Profession </li></ul><ul><ul><li>Associé chez MES (conseil en streaming media) </li></ul></ul><ul><ul><li>Doctorant à la Freie Universität Berlin </li></ul></ul><ul><li>Projets du web sémantique </li></ul><ul><ul><li>DBpedia et DBpedia Mobile </li></ul></ul><ul><ul><li>Marbles Browser </li></ul></ul><ul><ul><li>flickr™ wrappr </li></ul></ul><ul><ul><li>Préparation des liens entre BBC et DBpedia </li></ul></ul><ul><ul><li>D2RQ et D2R Server </li></ul></ul>
    3. 3. Aperçu <ul><li>Le projet D B pedia </li></ul><ul><li>Linked Data: DBpedia et le Web des données </li></ul><ul><li>Quelle suite pour D B pedia? </li></ul>
    4. 4. DBpedia <ul><li>DBpedia.org est un effort de communauté pour </li></ul><ul><ul><li>extraire des informations structurées à partir de Wikipedia </li></ul></ul><ul><ul><li>publier ces informations dans le Web sous une license ouverte </li></ul></ul><ul><ul><li>lier le dataset DBpedia avec d’autres datasets du Web </li></ul></ul><ul><li>Coopérateurs </li></ul><ul><ul><li>Freie Universität Berlin (Allemagne) </li></ul></ul><ul><ul><li>Universität Leipzig (Allemagne) </li></ul></ul><ul><ul><li>OpenLink Software (Royaume-Uni) </li></ul></ul><ul><ul><li>Linking Open Data Community (W3C SWEO) </li></ul></ul>
    5. 5. L’extraction des données structurées de Wikipedia <ul><li>Wikipedia est composé de </li></ul><ul><ul><li>12 millions d’articles (2,77 millions en anglais) </li></ul></ul><ul><ul><li>en 253 languages </li></ul></ul><ul><ul><li>taux de croissance par mois: 4% </li></ul></ul><ul><li>Les articles de Wikipedia contiennent des informations structurées </li></ul><ul><ul><li>Infoboxes qui utilise un mécanisme de gabarit </li></ul></ul><ul><ul><li>Catégorisation de l’article </li></ul></ul><ul><ul><li>Des images qui présentant le sujet de l’article </li></ul></ul><ul><ul><li>Des liens vers des pages web externes </li></ul></ul><ul><ul><li>Des liens intra-wiki vers des autres articles </li></ul></ul><ul><ul><li>Des liens inter-languages vers des articles concernant le même sujet dans des languages différents </li></ul></ul>
    6. 6. L’extraction des données infobox <http://dbpedia.org/resource/ Calgary > dbpedia:native_name “Calgary” ; dbpedia:altitude “1048” ; dbpedia:population_city “988193” ; dbpedia:population_metro “1079310” ; mayor_name dbpedia:Dave_Bronconnier ; governing_body dbpedia:Calgary_City_Council ; ... <ul><li>En utilisant un moteur d’extraction PHP </li></ul>http://en.wikipedia.org/wiki/ Calgary
    7. 7. La collecte des données DBpedia <ul><li>Des identifiants à l’échelle du Web pour 2.6 millions de “choses” </li></ul><ul><ul><li>dont au moins 213,000 personnes </li></ul></ul><ul><ul><li>328,000 endroits </li></ul></ul><ul><ul><li>57,000 albums de musique </li></ul></ul><ul><ul><li>36,000 films </li></ul></ul><ul><li>En somme 274 millions d’éléments d’information (triplets RDF) </li></ul><ul><ul><li>29 millions de triplets d’après des données d’infobox </li></ul></ul><ul><ul><li>609,000 liens vers des images </li></ul></ul><ul><ul><li>3,150,000 liens vers des pages web externes pertinentes </li></ul></ul><ul><li>Catégorisations </li></ul><ul><ul><li>L’ontologie DBpedia avec 170 classes et 940 propriétés, basée sur des classes plus riches </li></ul></ul><ul><ul><li>415,000 catégories Wikipedia </li></ul></ul><ul><ul><li>75,000 catégories YAGO </li></ul></ul>
    8. 8. Accéder aux données de DBpedia <ul><li>Point d’accès SPARQL </li></ul><ul><li>Interface Linked Data (cf: suite) </li></ul><ul><li>Des dumps RDF à télécharger </li></ul><ul><li>Datasets publiques d’Amazon </li></ul><ul><ul><li>http://aws.amazon.com/publicdatasets/ </li></ul></ul>
    9. 9. Le point d’accès SPARQL <ul><li>SPARQL = SQL pour le Web sémantique </li></ul><ul><li>Peut répondre aux requêtes SPARQL telles que: </li></ul><ul><ul><li>Donne-moi tous les sitcoms basés à New York City </li></ul></ul><ul><ul><li>Donne-moi t ous les joueurs de tennis de Moscou </li></ul></ul><ul><ul><li>Donne-moi tous les films de Quentin Tarentino </li></ul></ul><ul><ul><li>Donne-moi tous musiciens Allemands nés à Berlin au 19àme siècle </li></ul></ul><ul><ul><li>Donne-moi tous les joueurs de football avec le maillot numéro 11, qui joue dans un club ayant un stade contenant plus de 40,000 places et qui est nédans un pays de plus de 10 millions d’habitants </li></ul></ul><ul><li>Adresse: http://dbpedia.org/sparql </li></ul>
    10. 10. 2. Linked Data: DBpedia et le Web des données
    11. 11. Le Web des documents Le Web est un espace d’information global fondé sur des standards ouverts et des liens hypertextes Web browsers Moteurs de recherche A B C D HTML HTML HTML Liens hypertextes HTML Liens hypertextes Liens hypertextes
    12. 12. Linked Data B C Chose l ien entre données A D E Chose Chose Chose Chose Chose Chose Chose Chose Chose <ul><li>Utiliser RDF et HTTP pour </li></ul><ul><li>publier des données structurées sur le Web, </li></ul><ul><li>créer des liens entre données d’une donnée source et de données provenant d’autres sources. </li></ul>l ien entre données l ien entre données L ien entre données
    13. 13. Qu’est-ce que je peut faire avec ça? Moteurs de Recherche Browsers de Linked Data B C Chose l ien entre données A D E Chose Chose Chose Chose Chose Chose Chose Chose Chose l ien entre données l ien entre données L ien entre données Mashups avec Linked Data
    14. 15. Tabulator
    15. 16. DBpedia Mobile <ul><li>Point d’entrée géospatial dans le Web des données </li></ul>
    16. 17. Falcons
    17. 18. DBtune Slashfacet <ul><li>visualiser Linked Data (lié à la musique) </li></ul><ul><li>Utiliser last.fm, MySpace et données de BBC </li></ul>
    18. 19. W3C Linking Open Data Project <ul><li>Effort communauté pour </li></ul><ul><ul><li>publier des datasets de données déjà existentes comme Linked Data sur le Web </li></ul></ul><ul><ul><li>Relier entre elles des informations provenant de sources de données différentes </li></ul></ul>
    19. 20. Datasets LOD: Mai 2007 <ul><li>Plus de 500 millions de triplets RDF </li></ul>
    20. 21. Datasets LOD: Avril 2008 <ul><li>Plus de 2 milliards de triplets RDF </li></ul>
    21. 22. Datasets LOD: Mars 2009 4,5 milliards de triplets 180 millions de liens entre données
    22. 23. Datasets LOD: Mars 2009 Science de la vie Publications Activités en ligne Musique Géographie Interdomaine 4,5 milliards de triplets 180 millions de liens entre données
    23. 24. 3. Quelle suite pour DBpedia? <ul><li>Mise à jour en temps réel </li></ul><ul><ul><li>En phase de test </li></ul></ul><ul><li>De meilleures interfaces </li></ul><ul><ul><li>Recherche plein texte, navigation en mode facette </li></ul></ul>
    24. 25. Merci! <ul><li>Références </li></ul><ul><ul><li>DBpedia http://dbpedia.org/About </li></ul></ul><ul><ul><li>W3C Linking Open Data Project http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/ LinkingOpenData </li></ul></ul><ul><ul><li>LinkedData.Org </li></ul></ul><ul><ul><li>Tim Berners-Lee’s TED Talk http://www.ted.com/index.php/talks/tim_berners_lee_on_the_next_web.html </li></ul></ul><ul><ul><li>Tutorial: How to Publish Linked Data on the Web http://www4.wiwiss.fu-berlin.de/bizer/pub/LinkedDataTutorial/ </li></ul></ul>

    ×