DBpédia en français
Upcoming SlideShare
Loading in...5
×
 

DBpédia en français

on

  • 1,385 views

DBpédia en français est un projet d'extraction de données de Wikipédia en français. ...

DBpédia en français est un projet d'extraction de données de Wikipédia en français.
Les données sont publiées au format RDF sur le Web de données (Linked Data) afin d'être librement réutilisées par des applications.
Présentation pour la journée de lancement de Sémanticpédia, le 19 Novembre 2012.

Statistics

Views

Total Views
1,385
Views on SlideShare
1,268
Embed Views
117

Actions

Likes
2
Downloads
14
Comments
0

1 Embed 117

http://www.scoop.it 117

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-ShareAlike LicenseCC Attribution-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

DBpédia en français DBpédia en français Presentation Transcript

  • Julien CojanInria – équipe Wimmics
  • ● Extraction de données depuis Wikipédia en français● Membre du comité dinternationalisation (12 chapitres) http://dbpedia.org/Internationalization
  • Données
  • Données extraites de Wikipédia
  • Données extraites de Wikipédia 48.861073 2.335784 Catégorie: Musée_égyptologique longitude latitude Infobox Musée catégorie modèle Musée Date du Louvre 10/08/1793 ouverture ville pays adresse99, rue de Rivoli 75001 Paris Paris France
  • Données extraites de Wikipédia 48.861073 2.335784 Catégorie: Musée_égyptologique longitude latitude Infobox Musée catégorie modèle Musée du Louvre Date 10/08/1793 ouverture ville pays adresse99, rue de Rivoli 75001 Paris Paris pays code insee 75056 région France Île-de-France
  • Données extraites de Wikipédia 48.861073 2.335784 Catégorie: Musée_égyptologique longitude latitude Infobox Musée catégorie modèle Musée du Louvre Date 10/08/1793 ouverture ville pays adresse99, rue de Rivoli 75001 Paris Paris pays code insee 75056 région France pays Île-de-France
  • Nommage des ressources Sujet des articles de DBpedia :Musée du Louvre http://fr.dbpedia.org/resource/[Nom_Page] dbFr: Propriétés extraites textuellement : pays http://fr.dbpedia.org/property/[propriété] dbFr-prop:
  • Représentation RDF● RDF : Resource Description Format standard du W3C pour la représentation de données structurées● Triplet : arrête du graphe Musée du Louvre ville Paris dbpedia-fr:Musée_du_Louvre dbpediaFr-prop:ville dbpedia-fr:Paris (Sujet) (predicat) (objet)
  • Mais aussi :● Vocabulaire normalisé (Ontologie DBpedia)● URI stables
  • Vocabulaire normaliséProblèmes soulevés par lextraction textuelle● Mêmes termes, plusieurs sens Musée du Louvre pays France Raymond pays France Poulidor● Différents termes avec le même sens Emmanuel Kant naissance 22/04/1724 Le Corbusier date de naissance 06/10/1887
  • Vocabulaire normaliséVocabulaire défini collaborativement sur http://mappings.dbpedia.orgOntologie :● Hiérarchie de classes http://dbpedia.org/ontology/Museum● Propriétés http://dbpedia.org/ontology/city dbo:Mappings : Infobox dbo : infobox Musée rdf:type Museum Musée du Musée du Louvre Louvre ville dbo:city Paris Paris
  • URI stables● Lorsquune page est renommée « Le Louvre » « Palais du Louvre » dbFr :Le_Louvre dbFr :Palais_du_Louvre● Introduction dURI ne indépendante du titre http://fr.dbpedia.org/resourceById/469958 dbFrId: dbFrId : dbFrId : 469958 469958 owl: owl: sameAs sameAs dbFr : dbFr : Palais_du_Louvre Le_Louvre
  • Volume des donnéesfichier nbr de triplets fichier nbr de tripletscorrespondance avec 7574361 liens interlangues 1876807les pages wikipédia liens entre pages 60849851id page wikipédia 2863425titre des pages 2524787 redirections 1214339extraction dinfobox 16579168 homonymie 298634textuelle liens vers 3779203extraction dinfobox 2092711 catégoriesnormalisée categories 201230types des instances 2118305 liens externes 2140229 images 1649470En total 130 millions de triplets. (soit le second chapitre en taille).
  • Interroger les données
  • Accès aux données● Téléchargement de lensemble des données http://fr.dbpedia.org/download/ (licence: CC – BY – SA) http● Par déréférencement● SPARQL SPARQL http://fr.dbpedia.org/sparql
  • Déréférencementhttp://fr.dbpedia.org/resource/Musée_du_Louvre
  • SPARQL● Langage de requête sur des données RDF● Standard du W3C● Accessible à http://fr.dbpedia.org/sparql
  • Exemple SPARQL 1 Musées à Paris SELECT DISTINCT ?m WHERE {Musée ?m rdf:type dbpedia-owl:Museum . ?m dbpedia-owl:city dbpedia-fr:Paris . type } ?m ville Paris
  • Exemple SPARQL 2 Musées dans une ville dÎle de FranceMusée SELECT DISTINCT ?m?ville WHERE { ?m rdf:type dbpedia-owl:Museum . type ?m dbpedia-owl:city ?ville . ?ville dbpedia-owl:region dbpedia-fr:Île-de-France } ?m ville ?ville région Île-de-France
  • Exemple SPARQL 3 Dans quelles villes y a-t-il des Catégorie: musées égyptologiques ? Musée_égyptologique Combien ?Musée select ?ville count(distinct ?m) as ?nb where { sujet ?m rdf:type dbpedia-owl:Museum . type ?m dbpedia-owl:city ?ville . ?m dcterms:subject <http://fr.dbpedia.org/ ?m resource/Catégorie:Musée_égyptologique> } group by ?ville order by desc(?nb) ville ?ville
  • À venir● Outils ● Lookup en français Recherche de termes par mot clés ● Spotlight en français Reconnaissance dentités nommées dans un texte● Historisation des données
  • Merci
  • Musées, DBpedia enMusées, DBpedia fr