Diaporama de la présentation effectuée le 27 mars 2014 à Numa (Paris) à l'occasion de la journée "Relier les données : un enjeu majeur pour les usages ?" et du lancement de la plate-forme Datalift
Wikidata : quand Wikipédia s'intéresse aux données
1. 1
Wikidata
Quand Wikipedia s’intéresse aux données
RELIER LES DONNÉES : UN ENJEU MAJEUR POUR
LES USAGES ?
27 MARS 2014, PARIS Gautier Poupeau
gpoupeau@antidot.net
@lespetitescases
http://www.lespetitescases.net
2. 2
Mais où sont les données dans Wikipedia ?
Wikipedia : une masse insoupçonnée de données structurées
11. 11
Où sont les données ?
Lien vers des notices d’autorités
des bibliothèques
12. 12
Où sont les données ?
Lien vers des pages équivalentes
dans d’autres projets de la
Wikimedia Foundation
Lien vers des notices d’autorités
des bibliothèques
13. 13
Où sont les données ?
Lien vers des pages équivalentes
dans d’autres projets de la
Wikimedia Foundation
Lien vers des notices d’autorités
des bibliothèques
Catégories
14. 14
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
Infobox
15. 15
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
Infobox
Coordonnées géographiques
16. 16
Où sont les données
Lien vers des pages équivalentes
dans d’autres projets de la
Wikimedia Foundation
Catégories
50. 50
Dbpedia et SemanticPedia
832 000 personnes, 639 000
lieux, 116 000 albums musicaux,
78 000 films...
DBPedia permet de faire des requêtes complexes sur les
données de Wikipedia, et de relier d’autres ensembles de
données du Web à Wikipedia.
http://dbpedia.org
Mis au point et maintenu depuis 2006 par Universität Leipzig,
Freie Universität Berlin et la société OpenLink Software dans
le cadre du projet
4 millions de choses dont :
La version française de Dbpedia est
maintenue et développée depuis
2013 par Winimics (INRIA) en
partenariat avec Wikimedia France
et le Ministère de la Culture http://fr.dbpedia.org/
51. 51
Dbpedia : le centre du LOD
De par la nature et la richesse de Wikipedia, Dbpedia est devenu le centre
d’un vaste réseau de jeux de données reliées selon les principes du Linked Data
52. 52
Les limites
Données structurées complexes à
modifier dans les Wikipedias
Délai d’attente pour disposer de la mise à
jour (dbpedia mis à jour une fois par an)
Données dispersées dans les différentes
versions de Dbpedia
Dbpedia ne propose pas un niveau de
service compatible avec des impératifs
de production
Complexité de certaines extractions
53. 53
Comment harmoniser les données de
Wikipedia et en faciliter l’édition ?
Wikidata : le petit nouveau
Disclaimer : cette partie utilise les slides de Coyau (http://commons.wikimedia.org/wiki/File:2013-
09_Introduction_%C3%A0_Wikidata.pdf) disponible en CC-BY-SA. Merci à lui !
54. 54
Wikidata
Projet officiel de la Wikimedia
Foundation
Développée à partir de 2012 à
l’initiative de l’association
Wikimedia Deutschland
Ouvert à tous
Les données sont libres : CC0
Le site est entièrement
multilingue
Objectif 1er : centraliser et
faciliter la maintenance des
données structurées des
Wikipedias
55. 55
La gestion des liens interlangues
Ancien système Nouveau système
Gestion disséminée (données
dispersées sur 280 Wikipédias)
Gestion centralisée
Maintenance par une noria de robots Collecte par robots (sauf ambiguïté),
maintenance à la main
56. 56
La gestion des liens interlangues
[[af:Victor Hugo]]
[[als:Victor Hugo]]
[[an:Victor Hugo]]
[[ar: ]]
[[arz: ]]
[[ast:Victor Hugo]]
[[az:Viktor Hüqo]]
[[bat-smg:Victor Hugo]]
[[ba:Гюго, Виктор]]
[[be-x-old:Віктор Юго]]
[[be:Віктор Гюго]]
[[bg:Виктор Юго]]
[[bn: ]]
[[br:Victor Hugo]]
[[cv:Виктор Гюго]]
[[cy:Victor Hugo]]
[[da:Victor Hugo]]
[[de:Victor Hugo]]
[[diq:Victor Hugo]]
[[el:Βίκτωρ Ουγκώ]]
[[en:Victor Hugo]]
Ancien système
Wikipédia
Nouveau système
Wikidata
57. 57
La gestion des infobox
Ancien système Nouveau système
données dispersées (280 Wikipédias) données centralisées
mise à jour variable selon les Wikipédias gestion simplifiée des données
58. 58
La gestion des infobox
{{Infobox Conjoint politique
| nom = Berthe Faure
| image = Faure.1212301544-1-
.jpg
| légende = Dessin supposé de
Berthe Faure, debout et de dos, lors du
décès de son mari (une du ''[[Le Petit
Journal (quotidien)|Petit Journal]]'').
| statut = [[Liste des épouses
des présidents de la République
française|Épouse du {{7e}} président de la
République française]]
| début =
{{date|17|janvier|1895}}
| fin =
{{date|16|février|1899}}<br /><small>(4
ans et 29 jours)</small>
| conjoint = [[Félix Faure]]
| prédécesseur = [[Hélène Casimir-
Perier]]
| successeur = [[Marie-Louise
Loubet]]
| nom de naissance = Marie-Mathilde
Berthe Belluot
| date de naissance = {{date de
naissance|21|février|1842}}
| lieu de naissance =
| date de décès = [[1920]] (à 78 ans)
| lieu de décès =
| profession =
}}
59. 59
Anatomie d’un élément dans Wikidata
libellé (nom, label)
cf.
description
cf.
alias
cf.
liens interlangues
60. 60
Anatomie d’un élément dans Wikidata
affirmation (claim)
propriété (property) valeur (value) éventuellement des qualificateurs (qualifiers)
référence, source
(reference, source)
rang (rank)
déclaration (statement)
61. 61
La récupération des données
Négociation de contenu
(XML, RDF/XML, JSON, Turtle…)
API MediaWiki
enrichie
Dump full ou
journalier
62. 62
Outils autour de Wikidata
Permet de faire des
requêtes complexes
sur la base de
données
Résultat au format
JSON.
● http://wikidataquery.eu
WikiDataQuery
63. 63
Outils autour de Wikidata
Mise en page avancée
des données de
Wikidata
http://tools.wmflabs.org/reasonator/
Reasonator
64. 64
Exemple de réutilisation
Les musées de France
Mashup en reliant une
dizaine de jeux de
données dont
Wikidata, data.bnf.fr,
Dbpedia, data.gouv.fr,
Wikimedia Commons,
Instagram, Twitter…
http://labs.antidot.net/museesdefrance/