DBpédia en français

1,710 views
1,567 views

Published on

DBpédia en français est un projet d'extraction de données de Wikipédia en français.
Les données sont publiées au format RDF sur le Web de données (Linked Data) afin d'être librement réutilisées par des applications.
Présentation pour la journée de lancement de Sémanticpédia, le 19 Novembre 2012.

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,710
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
22
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

DBpédia en français

  1. 1. Julien CojanInria – équipe Wimmics
  2. 2. ● Extraction de données depuis Wikipédia en français● Membre du comité dinternationalisation (12 chapitres) http://dbpedia.org/Internationalization
  3. 3. Données
  4. 4. Données extraites de Wikipédia
  5. 5. Données extraites de Wikipédia 48.861073 2.335784 Catégorie: Musée_égyptologique longitude latitude Infobox Musée catégorie modèle Musée Date du Louvre 10/08/1793 ouverture ville pays adresse99, rue de Rivoli 75001 Paris Paris France
  6. 6. Données extraites de Wikipédia 48.861073 2.335784 Catégorie: Musée_égyptologique longitude latitude Infobox Musée catégorie modèle Musée du Louvre Date 10/08/1793 ouverture ville pays adresse99, rue de Rivoli 75001 Paris Paris pays code insee 75056 région France Île-de-France
  7. 7. Données extraites de Wikipédia 48.861073 2.335784 Catégorie: Musée_égyptologique longitude latitude Infobox Musée catégorie modèle Musée du Louvre Date 10/08/1793 ouverture ville pays adresse99, rue de Rivoli 75001 Paris Paris pays code insee 75056 région France pays Île-de-France
  8. 8. Nommage des ressources Sujet des articles de DBpedia :Musée du Louvre http://fr.dbpedia.org/resource/[Nom_Page] dbFr: Propriétés extraites textuellement : pays http://fr.dbpedia.org/property/[propriété] dbFr-prop:
  9. 9. Représentation RDF● RDF : Resource Description Format standard du W3C pour la représentation de données structurées● Triplet : arrête du graphe Musée du Louvre ville Paris dbpedia-fr:Musée_du_Louvre dbpediaFr-prop:ville dbpedia-fr:Paris (Sujet) (predicat) (objet)
  10. 10. Mais aussi :● Vocabulaire normalisé (Ontologie DBpedia)● URI stables
  11. 11. Vocabulaire normaliséProblèmes soulevés par lextraction textuelle● Mêmes termes, plusieurs sens Musée du Louvre pays France Raymond pays France Poulidor● Différents termes avec le même sens Emmanuel Kant naissance 22/04/1724 Le Corbusier date de naissance 06/10/1887
  12. 12. Vocabulaire normaliséVocabulaire défini collaborativement sur http://mappings.dbpedia.orgOntologie :● Hiérarchie de classes http://dbpedia.org/ontology/Museum● Propriétés http://dbpedia.org/ontology/city dbo:Mappings : Infobox dbo : infobox Musée rdf:type Museum Musée du Musée du Louvre Louvre ville dbo:city Paris Paris
  13. 13. URI stables● Lorsquune page est renommée « Le Louvre » « Palais du Louvre » dbFr :Le_Louvre dbFr :Palais_du_Louvre● Introduction dURI ne indépendante du titre http://fr.dbpedia.org/resourceById/469958 dbFrId: dbFrId : dbFrId : 469958 469958 owl: owl: sameAs sameAs dbFr : dbFr : Palais_du_Louvre Le_Louvre
  14. 14. Volume des donnéesfichier nbr de triplets fichier nbr de tripletscorrespondance avec 7574361 liens interlangues 1876807les pages wikipédia liens entre pages 60849851id page wikipédia 2863425titre des pages 2524787 redirections 1214339extraction dinfobox 16579168 homonymie 298634textuelle liens vers 3779203extraction dinfobox 2092711 catégoriesnormalisée categories 201230types des instances 2118305 liens externes 2140229 images 1649470En total 130 millions de triplets. (soit le second chapitre en taille).
  15. 15. Interroger les données
  16. 16. Accès aux données● Téléchargement de lensemble des données http://fr.dbpedia.org/download/ (licence: CC – BY – SA) http● Par déréférencement● SPARQL SPARQL http://fr.dbpedia.org/sparql
  17. 17. Déréférencementhttp://fr.dbpedia.org/resource/Musée_du_Louvre
  18. 18. SPARQL● Langage de requête sur des données RDF● Standard du W3C● Accessible à http://fr.dbpedia.org/sparql
  19. 19. Exemple SPARQL 1 Musées à Paris SELECT DISTINCT ?m WHERE {Musée ?m rdf:type dbpedia-owl:Museum . ?m dbpedia-owl:city dbpedia-fr:Paris . type } ?m ville Paris
  20. 20. Exemple SPARQL 2 Musées dans une ville dÎle de FranceMusée SELECT DISTINCT ?m?ville WHERE { ?m rdf:type dbpedia-owl:Museum . type ?m dbpedia-owl:city ?ville . ?ville dbpedia-owl:region dbpedia-fr:Île-de-France } ?m ville ?ville région Île-de-France
  21. 21. Exemple SPARQL 3 Dans quelles villes y a-t-il des Catégorie: musées égyptologiques ? Musée_égyptologique Combien ?Musée select ?ville count(distinct ?m) as ?nb where { sujet ?m rdf:type dbpedia-owl:Museum . type ?m dbpedia-owl:city ?ville . ?m dcterms:subject <http://fr.dbpedia.org/ ?m resource/Catégorie:Musée_égyptologique> } group by ?ville order by desc(?nb) ville ?ville
  22. 22. À venir● Outils ● Lookup en français Recherche de termes par mot clés ● Spotlight en français Reconnaissance dentités nommées dans un texte● Historisation des données
  23. 23. Merci
  24. 24. Musées, DBpedia enMusées, DBpedia fr

×