Wikidata : quand Wikipédia s'intéresse aux données

Antidot
AntidotDirecteur Marketing et Communication
1
Wikidata
Quand Wikipedia s’intéresse aux données
RELIER LES DONNÉES : UN ENJEU MAJEUR POUR
LES USAGES ?
27 MARS 2014, PARIS Gautier Poupeau
gpoupeau@antidot.net
@lespetitescases
http://www.lespetitescases.net
2
Mais où sont les données dans Wikipedia ?
Wikipedia : une masse insoupçonnée de données structurées
3
Où sont les données ?
4
Où sont les données ?
Etiquette principale de l’entité
5
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
6
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
Infobox
7
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
Image
8
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
Image
Donnée
9
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
Image
Nature de la donnée
Valeur de la donnée
10
Où sont les données ?
11
Où sont les données ?
Lien vers des notices d’autorités
des bibliothèques
12
Où sont les données ?
Lien vers des pages équivalentes
dans d’autres projets de la
Wikimedia Foundation
Lien vers des notices d’autorités
des bibliothèques
13
Où sont les données ?
Lien vers des pages équivalentes
dans d’autres projets de la
Wikimedia Foundation
Lien vers des notices d’autorités
des bibliothèques
Catégories
14
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
Infobox
15
Où sont les données ?
Etiquette principale de l’entité
Liens Interwikis
Infobox
Coordonnées géographiques
16
Où sont les données
Lien vers des pages équivalentes
dans d’autres projets de la
Wikimedia Foundation
Catégories
17
Où sont les données ?
18
Où sont les données ?
Liens
Interwikis
19
Où sont les données ?
Liens
Interwikis
Alignement avec un
identifiant d’autorité
20
Où sont les données ?
Liens
Interwikis
Liste de médias associés
et organisés
21
A quoi peuvent servir ces données ?
Wikipedia : un pivot pour relier les données
22
Créer du lien exploitable par les machines
23
Créer du lien exploitable par les machines
24
Créer du lien exploitable par les machines
25
Créer du lien exploitable par les machines
26
Créer du lien exploitable par les machines
27
Créer du lien exploitable par les machines
28
Créer du lien exploitable par les machines
29
Créer du lien exploitable par les machines
30
Pour construire de nouvelles applications
31
32
33
34
35
Créer du lien exploitable par les machines
36
Créer du lien exploitable par les machines
37
Créer du lien exploitable par les machines
38
Créer du lien exploitable par les machines
39
Créer du lien exploitable par les machines
40
Créer du lien exploitable par les machines
41
Créer du lien exploitable par les machines
42
Créer du lien exploitable par les machines
43
Créer du lien exploitable par les machines
44
Pour construire de nouvelles applications
http://labs.antidot.net/widgets/monuments
45
46
47
48
49
Comment récupérer ces données ?
Dbpedia : le pionnier
50
Dbpedia et SemanticPedia
832 000 personnes, 639 000
lieux, 116 000 albums musicaux,
78 000 films...
DBPedia permet de faire des requêtes complexes sur les
données de Wikipedia, et de relier d’autres ensembles de
données du Web à Wikipedia.
http://dbpedia.org
Mis au point et maintenu depuis 2006 par Universität Leipzig,
Freie Universität Berlin et la société OpenLink Software dans
le cadre du projet
4 millions de choses dont :
La version française de Dbpedia est
maintenue et développée depuis
2013 par Winimics (INRIA) en
partenariat avec Wikimedia France
et le Ministère de la Culture http://fr.dbpedia.org/
51
Dbpedia : le centre du LOD
De par la nature et la richesse de Wikipedia, Dbpedia est devenu le centre
d’un vaste réseau de jeux de données reliées selon les principes du Linked Data
52
Les limites
Données structurées complexes à
modifier dans les Wikipedias
Délai d’attente pour disposer de la mise à
jour (dbpedia mis à jour une fois par an)
Données dispersées dans les différentes
versions de Dbpedia
Dbpedia ne propose pas un niveau de
service compatible avec des impératifs
de production
Complexité de certaines extractions
53
Comment harmoniser les données de
Wikipedia et en faciliter l’édition ?
Wikidata : le petit nouveau
Disclaimer : cette partie utilise les slides de Coyau (http://commons.wikimedia.org/wiki/File:2013-
09_Introduction_%C3%A0_Wikidata.pdf) disponible en CC-BY-SA. Merci à lui !
54
Wikidata
Projet officiel de la Wikimedia
Foundation
Développée à partir de 2012 à
l’initiative de l’association
Wikimedia Deutschland
Ouvert à tous
Les données sont libres : CC0
Le site est entièrement
multilingue
Objectif 1er : centraliser et
faciliter la maintenance des
données structurées des
Wikipedias
55
La gestion des liens interlangues
Ancien système Nouveau système
Gestion disséminée (données
dispersées sur 280 Wikipédias)
Gestion centralisée
Maintenance par une noria de robots Collecte par robots (sauf ambiguïté),
maintenance à la main
56
La gestion des liens interlangues
[[af:Victor Hugo]]
[[als:Victor Hugo]]
[[an:Victor Hugo]]
[[ar: ]]
[[arz: ]]
[[ast:Victor Hugo]]
[[az:Viktor Hüqo]]
[[bat-smg:Victor Hugo]]
[[ba:Гюго, Виктор]]
[[be-x-old:Віктор Юго]]
[[be:Віктор Гюго]]
[[bg:Виктор Юго]]
[[bn: ]]
[[br:Victor Hugo]]
[[cv:Виктор Гюго]]
[[cy:Victor Hugo]]
[[da:Victor Hugo]]
[[de:Victor Hugo]]
[[diq:Victor Hugo]]
[[el:Βίκτωρ Ουγκώ]]
[[en:Victor Hugo]]
Ancien système
Wikipédia
Nouveau système
Wikidata
57
La gestion des infobox
Ancien système Nouveau système
données dispersées (280 Wikipédias) données centralisées
mise à jour variable selon les Wikipédias gestion simplifiée des données
58
La gestion des infobox
{{Infobox Conjoint politique
| nom = Berthe Faure
| image = Faure.1212301544-1-
.jpg
| légende = Dessin supposé de
Berthe Faure, debout et de dos, lors du
décès de son mari (une du ''[[Le Petit
Journal (quotidien)|Petit Journal]]'').
| statut = [[Liste des épouses
des présidents de la République
française|Épouse du {{7e}} président de la
République française]]
| début =
{{date|17|janvier|1895}}
| fin =
{{date|16|février|1899}}<br /><small>(4
ans et 29 jours)</small>
| conjoint = [[Félix Faure]]
| prédécesseur = [[Hélène Casimir-
Perier]]
| successeur = [[Marie-Louise
Loubet]]
| nom de naissance = Marie-Mathilde
Berthe Belluot
| date de naissance = {{date de
naissance|21|février|1842}}
| lieu de naissance =
| date de décès = [[1920]] (à 78 ans)
| lieu de décès =
| profession =
}}
59
Anatomie d’un élément dans Wikidata
libellé (nom, label)
cf.
description
cf.
alias
cf.
liens interlangues
60
Anatomie d’un élément dans Wikidata
affirmation (claim)
propriété (property) valeur (value) éventuellement des qualificateurs (qualifiers)
référence, source
(reference, source)
rang (rank)
déclaration (statement)
61
La récupération des données
Négociation de contenu
(XML, RDF/XML, JSON, Turtle…)
API MediaWiki
enrichie
Dump full ou
journalier
62
Outils autour de Wikidata
Permet de faire des
requêtes complexes
sur la base de
données
Résultat au format
JSON.
● http://wikidataquery.eu
WikiDataQuery
63
Outils autour de Wikidata
Mise en page avancée
des données de
Wikidata
http://tools.wmflabs.org/reasonator/
Reasonator
64
Exemple de réutilisation
Les musées de France
Mashup en reliant une
dizaine de jeux de
données dont
Wikidata, data.bnf.fr,
Dbpedia, data.gouv.fr,
Wikimedia Commons,
Instagram, Twitter…
http://labs.antidot.net/museesdefrance/
65
MERCI
DES QUESTIONS ?
1 of 65

Recommended

La publication scientifique et le libre accès by
La publication scientifique et le libre accèsLa publication scientifique et le libre accès
La publication scientifique et le libre accèsPascale Laurent
1.3K views52 slides
Échange et interopérabilité des données structurées sur le Web by
Échange et interopérabilité des données structurées sur le WebÉchange et interopérabilité des données structurées sur le Web
Échange et interopérabilité des données structurées sur le WebAntidot
2.2K views21 slides
Mandriva Present Task Oriented Desktop by
Mandriva Present Task Oriented DesktopMandriva Present Task Oriented Desktop
Mandriva Present Task Oriented DesktopInria
682 views34 slides
Enjeux Des Catalogues Et Des Portails En BibliothèQue by
Enjeux Des Catalogues Et Des Portails En BibliothèQueEnjeux Des Catalogues Et Des Portails En BibliothèQue
Enjeux Des Catalogues Et Des Portails En BibliothèQueFranck Queyraud
2.4K views102 slides
Les universités françaises et l'Open Data après la loi "République numérique" by
Les universités françaises et l'Open Data après la loi "République numérique"Les universités françaises et l'Open Data après la loi "République numérique"
Les universités françaises et l'Open Data après la loi "République numérique"Calimaq S.I.Lex
16.8K views14 slides
Jabes 2021 - 26 ans après la création de l'Abes by
Jabes 2021 - 26 ans après la création de l'AbesJabes 2021 - 26 ans après la création de l'Abes
Jabes 2021 - 26 ans après la création de l'AbesABES
338 views11 slides

More Related Content

What's hot

Sensibilisation open-data 2017 by
Sensibilisation open-data 2017Sensibilisation open-data 2017
Sensibilisation open-data 2017Claire Gallon
75 views46 slides
Etats des lieux de l'Open Data culturel en France et en Europe by
Etats des lieux de l'Open Data culturel en France et en EuropeEtats des lieux de l'Open Data culturel en France et en Europe
Etats des lieux de l'Open Data culturel en France et en EuropeCalimaq S.I.Lex
7.4K views23 slides
Pour ou contre l'ouverture des données et contenus culturels ? by
Pour ou contre l'ouverture des données et contenus culturels ?Pour ou contre l'ouverture des données et contenus culturels ?
Pour ou contre l'ouverture des données et contenus culturels ?Calimaq S.I.Lex
3.2K views38 slides
Atelier EtaLab : Retour d'expérience Open Data Paris by
Atelier EtaLab : Retour d'expérience Open Data ParisAtelier EtaLab : Retour d'expérience Open Data Paris
Atelier EtaLab : Retour d'expérience Open Data ParisMairie de Paris
2.4K views14 slides
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13 by
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13Franck Queyraud
1.2K views66 slides
Clarifier le sens de vos données publiques avec le Web de données by
Clarifier le sens de vos données publiques avec le Web de donnéesClarifier le sens de vos données publiques avec le Web de données
Clarifier le sens de vos données publiques avec le Web de donnéesAIMS (Agricultural Information Management Standards)
324 views22 slides

What's hot(10)

Sensibilisation open-data 2017 by Claire Gallon
Sensibilisation open-data 2017Sensibilisation open-data 2017
Sensibilisation open-data 2017
Claire Gallon75 views
Etats des lieux de l'Open Data culturel en France et en Europe by Calimaq S.I.Lex
Etats des lieux de l'Open Data culturel en France et en EuropeEtats des lieux de l'Open Data culturel en France et en Europe
Etats des lieux de l'Open Data culturel en France et en Europe
Calimaq S.I.Lex7.4K views
Pour ou contre l'ouverture des données et contenus culturels ? by Calimaq S.I.Lex
Pour ou contre l'ouverture des données et contenus culturels ?Pour ou contre l'ouverture des données et contenus culturels ?
Pour ou contre l'ouverture des données et contenus culturels ?
Calimaq S.I.Lex3.2K views
Atelier EtaLab : Retour d'expérience Open Data Paris by Mairie de Paris
Atelier EtaLab : Retour d'expérience Open Data ParisAtelier EtaLab : Retour d'expérience Open Data Paris
Atelier EtaLab : Retour d'expérience Open Data Paris
Mairie de Paris2.4K views
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13 by Franck Queyraud
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Des Outils 2.0 En Bdp 19 FéVrier Bdp 13
Franck Queyraud1.2K views
Centre de ressources en ligne : l'USH et XWiki by XWiki
Centre de ressources en ligne : l'USH et XWikiCentre de ressources en ligne : l'USH et XWiki
Centre de ressources en ligne : l'USH et XWiki
XWiki389 views
Bouchout Declaration on Open Biodiversity Knowledge Management, Montpellier J... by agosti
Bouchout Declaration on Open Biodiversity Knowledge Management, Montpellier J...Bouchout Declaration on Open Biodiversity Knowledge Management, Montpellier J...
Bouchout Declaration on Open Biodiversity Knowledge Management, Montpellier J...
agosti720 views
Ophélie Popille: Les promesses et impacts de l'ouverture des données sur le t... by liberTIC
Ophélie Popille: Les promesses et impacts de l'ouverture des données sur le t...Ophélie Popille: Les promesses et impacts de l'ouverture des données sur le t...
Ophélie Popille: Les promesses et impacts de l'ouverture des données sur le t...
liberTIC2.5K views

Similar to Wikidata : quand Wikipédia s'intéresse aux données

Les technologies du Web appliquées aux données structurées (2ème partie : Rel... by
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Gautier Poupeau
5K views53 slides
Introduction au web des données (Linked Data) by
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)BorderCloud
5.5K views57 slides
Wikipedia, une introduction by
Wikipedia, une introductionWikipedia, une introduction
Wikipedia, une introductionBourrion Daniel
288 views44 slides
2 focus web by
2 focus web2 focus web
2 focus webABES
915 views36 slides
Web2, le contexte général by
Web2, le contexte généralWeb2, le contexte général
Web2, le contexte généralXavier Galaup
917 views54 slides
Les chercheurs et wikipédia v1.1 bruno dewailly by
Les chercheurs et wikipédia v1.1   bruno dewaillyLes chercheurs et wikipédia v1.1   bruno dewailly
Les chercheurs et wikipédia v1.1 bruno dewaillyBruno2wi
1.2K views54 slides

Similar to Wikidata : quand Wikipédia s'intéresse aux données(20)

Les technologies du Web appliquées aux données structurées (2ème partie : Rel... by Gautier Poupeau
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Les technologies du Web appliquées aux données structurées (2ème partie : Rel...
Gautier Poupeau5K views
Introduction au web des données (Linked Data) by BorderCloud
Introduction au web des données (Linked Data)Introduction au web des données (Linked Data)
Introduction au web des données (Linked Data)
BorderCloud5.5K views
2 focus web by ABES
2 focus web2 focus web
2 focus web
ABES915 views
Web2, le contexte général by Xavier Galaup
Web2, le contexte généralWeb2, le contexte général
Web2, le contexte général
Xavier Galaup917 views
Les chercheurs et wikipédia v1.1 bruno dewailly by Bruno2wi
Les chercheurs et wikipédia v1.1   bruno dewaillyLes chercheurs et wikipédia v1.1   bruno dewailly
Les chercheurs et wikipédia v1.1 bruno dewailly
Bruno2wi1.2K views
DBpedia Cafe-In by JulienCojan
DBpedia Cafe-InDBpedia Cafe-In
DBpedia Cafe-In
JulienCojan1.3K views
Abf normandie formation 1 les outils de la communication by Sophie C.
Abf normandie formation 1 les outils de la communicationAbf normandie formation 1 les outils de la communication
Abf normandie formation 1 les outils de la communication
Sophie C.133 views
metadata_pour_dirbu_mars2011 by Y. Nicolas
metadata_pour_dirbu_mars2011metadata_pour_dirbu_mars2011
metadata_pour_dirbu_mars2011
Y. Nicolas800 views
2 infrastructure numerique_focusweb_cnfpt2011 by Fleury Christine
2 infrastructure numerique_focusweb_cnfpt20112 infrastructure numerique_focusweb_cnfpt2011
2 infrastructure numerique_focusweb_cnfpt2011
Fleury Christine550 views
Formation professionnelle "Big data : concepts et enjeux" by Philippe METAYER
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
Philippe METAYER4K views
Atelier juriconnexion 2009 by Geemik
Atelier juriconnexion 2009Atelier juriconnexion 2009
Atelier juriconnexion 2009
Geemik 360 views
Wiki et gestion du savoir : 5@7 centre de productique by Benoit des Ligneris
Wiki et gestion du savoir : 5@7 centre de productiqueWiki et gestion du savoir : 5@7 centre de productique
Wiki et gestion du savoir : 5@7 centre de productique
Le web participatif en bibliotheque publique by Xavier Galaup
Le web participatif en bibliotheque publiqueLe web participatif en bibliotheque publique
Le web participatif en bibliotheque publique
Xavier Galaup780 views
Vers la bibliothèque 2.0? by Xavier Galaup
Vers la bibliothèque 2.0?Vers la bibliothèque 2.0?
Vers la bibliothèque 2.0?
Xavier Galaup514 views
Le Web de données - nouvelles pratiques de publication et nouveaux services? by chessmu
Le Web de données - nouvelles pratiques de publication et nouveaux services? Le Web de données - nouvelles pratiques de publication et nouveaux services?
Le Web de données - nouvelles pratiques de publication et nouveaux services?
chessmu566 views

More from Antidot

Comment l'intelligence artificielle améliore la recherche documentaire by
Comment l'intelligence artificielle améliore la recherche documentaireComment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaireAntidot
3.4K views70 slides
Antidot Content Classifier - Valorisez vos contenus by
Antidot Content Classifier - Valorisez vos contenusAntidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenusAntidot
1.7K views33 slides
Comment l’intelligence artificielle réinvente la fouille de texte by
Comment l’intelligence artificielle réinvente la fouille de texteComment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texteAntidot
4.6K views39 slides
Antidot Content Classifier by
Antidot Content ClassifierAntidot Content Classifier
Antidot Content ClassifierAntidot
809 views2 slides
Cas client CAIJ by
Cas client CAIJCas client CAIJ
Cas client CAIJAntidot
990 views2 slides
Du Big Data à la Smart Information : comment valoriser les actifs information... by
Du Big Data à la Smart Information : comment valoriser les actifs information...Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...Antidot
1.9K views80 slides

More from Antidot(20)

Comment l'intelligence artificielle améliore la recherche documentaire by Antidot
Comment l'intelligence artificielle améliore la recherche documentaireComment l'intelligence artificielle améliore la recherche documentaire
Comment l'intelligence artificielle améliore la recherche documentaire
Antidot3.4K views
Antidot Content Classifier - Valorisez vos contenus by Antidot
Antidot Content Classifier - Valorisez vos contenusAntidot Content Classifier - Valorisez vos contenus
Antidot Content Classifier - Valorisez vos contenus
Antidot1.7K views
Comment l’intelligence artificielle réinvente la fouille de texte by Antidot
Comment l’intelligence artificielle réinvente la fouille de texteComment l’intelligence artificielle réinvente la fouille de texte
Comment l’intelligence artificielle réinvente la fouille de texte
Antidot4.6K views
Antidot Content Classifier by Antidot
Antidot Content ClassifierAntidot Content Classifier
Antidot Content Classifier
Antidot809 views
Cas client CAIJ by Antidot
Cas client CAIJCas client CAIJ
Cas client CAIJ
Antidot990 views
Du Big Data à la Smart Information : comment valoriser les actifs information... by Antidot
Du Big Data à la Smart Information : comment valoriser les actifs information...Du Big Data à la Smart Information : comment valoriser les actifs information...
Du Big Data à la Smart Information : comment valoriser les actifs information...
Antidot1.9K views
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance" by Antidot
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Compte rendu de la matinée "E-commerce B2B : les leviers de croissance"
Antidot1.4K views
Web sémantique et Web de données, et si on passait à la pratique ? by Antidot
Web sémantique et Web de données, et si on passait à la pratique ?Web sémantique et Web de données, et si on passait à la pratique ?
Web sémantique et Web de données, et si on passait à la pratique ?
Antidot3.5K views
Machine learning, deep learning et search : à quand ces innovations dans nos ... by Antidot
Machine learning, deep learning et search : à quand ces innovations dans nos ...Machine learning, deep learning et search : à quand ces innovations dans nos ...
Machine learning, deep learning et search : à quand ces innovations dans nos ...
Antidot4.7K views
Flyer AFS@Store 2015 FR by Antidot
Flyer AFS@Store 2015 FRFlyer AFS@Store 2015 FR
Flyer AFS@Store 2015 FR
Antidot692 views
WISS 2015 - Machine Learning lecture by Ludovic Samper by Antidot
WISS 2015 - Machine Learning lecture by Ludovic Samper WISS 2015 - Machine Learning lecture by Ludovic Samper
WISS 2015 - Machine Learning lecture by Ludovic Samper
Antidot4.2K views
Do’s and don'ts : la recherche interne aux sites de ecommerce by Antidot
Do’s and don'ts : la recherche interne aux sites de ecommerceDo’s and don'ts : la recherche interne aux sites de ecommerce
Do’s and don'ts : la recherche interne aux sites de ecommerce
Antidot1.6K views
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis... by Antidot
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Boostez votre taux de conversion et augmentez vos ventes grâce au searchandis...
Antidot1.4K views
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp... by Antidot
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Synergie entre intranet collaboratif et recherche sémantique : le cas des hôp...
Antidot2.2K views
En 2015, quelles sont les bonnes pratiques du searchandising ? by Antidot
En 2015, quelles sont les bonnes pratiques du searchandising ?En 2015, quelles sont les bonnes pratiques du searchandising ?
En 2015, quelles sont les bonnes pratiques du searchandising ?
Antidot1.6K views
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ... by Antidot
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
Comment tirer profit des données publiques ouvertes dans un mashup web grâce ...
Antidot3.8K views
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo... by Antidot
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Vous utilisez Prestashop ? Changez votre moteur de recherche interne pour boo...
Antidot1.9K views
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea... by Antidot
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Boostez votre taux de conversion en tirant profit des bonnes pratiques du sea...
Antidot2.4K views
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui... by Antidot
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Améliorer le searchandising d’un site spécialisé : retour d'expérience de Cui...
Antidot2.3K views
Comment sélectionner, qualifier puis exploiter les données ouvertes by Antidot
Comment sélectionner, qualifier puis exploiter les données ouvertesComment sélectionner, qualifier puis exploiter les données ouvertes
Comment sélectionner, qualifier puis exploiter les données ouvertes
Antidot2.5K views

Wikidata : quand Wikipédia s'intéresse aux données

  • 1. 1 Wikidata Quand Wikipedia s’intéresse aux données RELIER LES DONNÉES : UN ENJEU MAJEUR POUR LES USAGES ? 27 MARS 2014, PARIS Gautier Poupeau gpoupeau@antidot.net @lespetitescases http://www.lespetitescases.net
  • 2. 2 Mais où sont les données dans Wikipedia ? Wikipedia : une masse insoupçonnée de données structurées
  • 3. 3 Où sont les données ?
  • 4. 4 Où sont les données ? Etiquette principale de l’entité
  • 5. 5 Où sont les données ? Etiquette principale de l’entité Liens Interwikis
  • 6. 6 Où sont les données ? Etiquette principale de l’entité Liens Interwikis Infobox
  • 7. 7 Où sont les données ? Etiquette principale de l’entité Liens Interwikis Image
  • 8. 8 Où sont les données ? Etiquette principale de l’entité Liens Interwikis Image Donnée
  • 9. 9 Où sont les données ? Etiquette principale de l’entité Liens Interwikis Image Nature de la donnée Valeur de la donnée
  • 10. 10 Où sont les données ?
  • 11. 11 Où sont les données ? Lien vers des notices d’autorités des bibliothèques
  • 12. 12 Où sont les données ? Lien vers des pages équivalentes dans d’autres projets de la Wikimedia Foundation Lien vers des notices d’autorités des bibliothèques
  • 13. 13 Où sont les données ? Lien vers des pages équivalentes dans d’autres projets de la Wikimedia Foundation Lien vers des notices d’autorités des bibliothèques Catégories
  • 14. 14 Où sont les données ? Etiquette principale de l’entité Liens Interwikis Infobox
  • 15. 15 Où sont les données ? Etiquette principale de l’entité Liens Interwikis Infobox Coordonnées géographiques
  • 16. 16 Où sont les données Lien vers des pages équivalentes dans d’autres projets de la Wikimedia Foundation Catégories
  • 17. 17 Où sont les données ?
  • 18. 18 Où sont les données ? Liens Interwikis
  • 19. 19 Où sont les données ? Liens Interwikis Alignement avec un identifiant d’autorité
  • 20. 20 Où sont les données ? Liens Interwikis Liste de médias associés et organisés
  • 21. 21 A quoi peuvent servir ces données ? Wikipedia : un pivot pour relier les données
  • 22. 22 Créer du lien exploitable par les machines
  • 23. 23 Créer du lien exploitable par les machines
  • 24. 24 Créer du lien exploitable par les machines
  • 25. 25 Créer du lien exploitable par les machines
  • 26. 26 Créer du lien exploitable par les machines
  • 27. 27 Créer du lien exploitable par les machines
  • 28. 28 Créer du lien exploitable par les machines
  • 29. 29 Créer du lien exploitable par les machines
  • 30. 30 Pour construire de nouvelles applications
  • 31. 31
  • 32. 32
  • 33. 33
  • 34. 34
  • 35. 35 Créer du lien exploitable par les machines
  • 36. 36 Créer du lien exploitable par les machines
  • 37. 37 Créer du lien exploitable par les machines
  • 38. 38 Créer du lien exploitable par les machines
  • 39. 39 Créer du lien exploitable par les machines
  • 40. 40 Créer du lien exploitable par les machines
  • 41. 41 Créer du lien exploitable par les machines
  • 42. 42 Créer du lien exploitable par les machines
  • 43. 43 Créer du lien exploitable par les machines
  • 44. 44 Pour construire de nouvelles applications http://labs.antidot.net/widgets/monuments
  • 45. 45
  • 46. 46
  • 47. 47
  • 48. 48
  • 49. 49 Comment récupérer ces données ? Dbpedia : le pionnier
  • 50. 50 Dbpedia et SemanticPedia 832 000 personnes, 639 000 lieux, 116 000 albums musicaux, 78 000 films... DBPedia permet de faire des requêtes complexes sur les données de Wikipedia, et de relier d’autres ensembles de données du Web à Wikipedia. http://dbpedia.org Mis au point et maintenu depuis 2006 par Universität Leipzig, Freie Universität Berlin et la société OpenLink Software dans le cadre du projet 4 millions de choses dont : La version française de Dbpedia est maintenue et développée depuis 2013 par Winimics (INRIA) en partenariat avec Wikimedia France et le Ministère de la Culture http://fr.dbpedia.org/
  • 51. 51 Dbpedia : le centre du LOD De par la nature et la richesse de Wikipedia, Dbpedia est devenu le centre d’un vaste réseau de jeux de données reliées selon les principes du Linked Data
  • 52. 52 Les limites Données structurées complexes à modifier dans les Wikipedias Délai d’attente pour disposer de la mise à jour (dbpedia mis à jour une fois par an) Données dispersées dans les différentes versions de Dbpedia Dbpedia ne propose pas un niveau de service compatible avec des impératifs de production Complexité de certaines extractions
  • 53. 53 Comment harmoniser les données de Wikipedia et en faciliter l’édition ? Wikidata : le petit nouveau Disclaimer : cette partie utilise les slides de Coyau (http://commons.wikimedia.org/wiki/File:2013- 09_Introduction_%C3%A0_Wikidata.pdf) disponible en CC-BY-SA. Merci à lui !
  • 54. 54 Wikidata Projet officiel de la Wikimedia Foundation Développée à partir de 2012 à l’initiative de l’association Wikimedia Deutschland Ouvert à tous Les données sont libres : CC0 Le site est entièrement multilingue Objectif 1er : centraliser et faciliter la maintenance des données structurées des Wikipedias
  • 55. 55 La gestion des liens interlangues Ancien système Nouveau système Gestion disséminée (données dispersées sur 280 Wikipédias) Gestion centralisée Maintenance par une noria de robots Collecte par robots (sauf ambiguïté), maintenance à la main
  • 56. 56 La gestion des liens interlangues [[af:Victor Hugo]] [[als:Victor Hugo]] [[an:Victor Hugo]] [[ar: ]] [[arz: ]] [[ast:Victor Hugo]] [[az:Viktor Hüqo]] [[bat-smg:Victor Hugo]] [[ba:Гюго, Виктор]] [[be-x-old:Віктор Юго]] [[be:Віктор Гюго]] [[bg:Виктор Юго]] [[bn: ]] [[br:Victor Hugo]] [[cv:Виктор Гюго]] [[cy:Victor Hugo]] [[da:Victor Hugo]] [[de:Victor Hugo]] [[diq:Victor Hugo]] [[el:Βίκτωρ Ουγκώ]] [[en:Victor Hugo]] Ancien système Wikipédia Nouveau système Wikidata
  • 57. 57 La gestion des infobox Ancien système Nouveau système données dispersées (280 Wikipédias) données centralisées mise à jour variable selon les Wikipédias gestion simplifiée des données
  • 58. 58 La gestion des infobox {{Infobox Conjoint politique | nom = Berthe Faure | image = Faure.1212301544-1- .jpg | légende = Dessin supposé de Berthe Faure, debout et de dos, lors du décès de son mari (une du ''[[Le Petit Journal (quotidien)|Petit Journal]]''). | statut = [[Liste des épouses des présidents de la République française|Épouse du {{7e}} président de la République française]] | début = {{date|17|janvier|1895}} | fin = {{date|16|février|1899}}<br /><small>(4 ans et 29 jours)</small> | conjoint = [[Félix Faure]] | prédécesseur = [[Hélène Casimir- Perier]] | successeur = [[Marie-Louise Loubet]] | nom de naissance = Marie-Mathilde Berthe Belluot | date de naissance = {{date de naissance|21|février|1842}} | lieu de naissance = | date de décès = [[1920]] (à 78 ans) | lieu de décès = | profession = }}
  • 59. 59 Anatomie d’un élément dans Wikidata libellé (nom, label) cf. description cf. alias cf. liens interlangues
  • 60. 60 Anatomie d’un élément dans Wikidata affirmation (claim) propriété (property) valeur (value) éventuellement des qualificateurs (qualifiers) référence, source (reference, source) rang (rank) déclaration (statement)
  • 61. 61 La récupération des données Négociation de contenu (XML, RDF/XML, JSON, Turtle…) API MediaWiki enrichie Dump full ou journalier
  • 62. 62 Outils autour de Wikidata Permet de faire des requêtes complexes sur la base de données Résultat au format JSON. ● http://wikidataquery.eu WikiDataQuery
  • 63. 63 Outils autour de Wikidata Mise en page avancée des données de Wikidata http://tools.wmflabs.org/reasonator/ Reasonator
  • 64. 64 Exemple de réutilisation Les musées de France Mashup en reliant une dizaine de jeux de données dont Wikidata, data.bnf.fr, Dbpedia, data.gouv.fr, Wikimedia Commons, Instagram, Twitter… http://labs.antidot.net/museesdefrance/