Your SlideShare is downloading. ×
0
Vers le web de données#tutoriel #30’ #jabes2012
Le web de données,              c’est pas quoi ?                      Base              WebDocuments             GED      ...
Le Web, web de documents   Données      Documents   Base de   données                       Hyperlien   Base de   données
http://fyeah-icebergs.tumblr.com/post/1063474140
Un archipel d’icebergs• Les données sont cachées sous les pages HTML  (deep web)• Seules les pages HTML sont liées entre e...
Le web de données liées             Données   Documents             Base de             donnéesLiens entre les            ...
Le web de données liées               Données       Documents               Base de               donnéesLiens entre les  ...
Persée                  Une base de données                                          DOCUMENTS     id                     ...
Sudoc + IdRef                            Une autre                         base de données                                ...
DOCUMENTS                                        #1 Comment lier                                                          ...
COMMENT ARRIVER À ÇA ?
Le nuage du web de données liées
Le nuage du web de données liées
Les données ABES sur le web de données,         avec IdRef pour pivot
RDFUN MODÈLE GÉNÉRAL POURDÉCRIRE … N’IMPORTE QUOI
RDF = Graphes                                                                                 « Paul Veyne »              ...
Nommer les relations                                                              « Paul Veyne »                          ...
Nommer les ressources                                                         « Paul Veyne   »                            ...
Des graphes aux triplets                                                               « Paul Veyne   »                   ...
2 bases séparées                                                                    « Paul Veyne   »                      ...
On agrège les 2 bases                                                             « Paul Veyne   »                        ...
2 bases séparées                                                                     « Paul Veyne   »                     ...
2 bases séparées                                                                 « Paul Veyne   »                         ...
On agrège les 2 bases                                                                  « Paul Veyne   »         owl:sameAs...
Paul Veyne dans le RDF de VIAF                                     http://viaf.org/viaf/108250528/rdf.xml  http://viaf.org...
On ajoute un peu de sémantique                       truc:subject                                          http://id.loc.g...
On en déduit que…                        truc:subject                                          http://id.loc.gov/au     sk...
Aujourd’hui                     Fonds                               Calames               Livre              Sudoc        ...
Demain                     Fonds                          Calames          Livre         Sudoc                            ...
+ articles, éditions                                                                          scientifiques,  Après-demain...
http://www.flickr.com/photos/danbri/6233467501/
http://www.circuitdomain.com/PCB%20Prototyping/PCB.htm
ABES, charte graphique (circa 2000)
Vertu                                   EffetRDF offre un modèle universel   Inutile de chercher le format  qui permet d’e...
Vertu                           EffetRDF rend les données   La notice d’autorité n’a pas  extensibles.             besoin ...
Vertu                                 EffetRDF n’impose pas de schéma    Devons-nous utiliser  unique. On peut mixer les  ...
Vertu                                 EffetRDF permet de raisonner sur    Dans le projet SudocAD, on a  les données, pour ...
En savoir plus• Infos : http://punktokomo.abes.fr/tag/semantique-web/• Outil : inspector.sindice.com• Tutos : http://web-s...
Upcoming SlideShare
Loading in...5
×

Jabes2012 : tutoriel web de données

950

Published on

Tutoriel de 30' à l'aube, le second jour des journées ABES 2012.
Je vous rassure : la laideur de la page de titre est intentionnelle, à vocation pédagogique (trop long à vous expliquer).

Published in: Education

Transcript of "Jabes2012 : tutoriel web de données"

  1. 1. Vers le web de données#tutoriel #30’ #jabes2012
  2. 2. Le web de données, c’est pas quoi ? Base WebDocuments GED Le Web = Web de documents Données Base de données Web de données
  3. 3. Le Web, web de documents Données Documents Base de données Hyperlien Base de données
  4. 4. http://fyeah-icebergs.tumblr.com/post/1063474140
  5. 5. Un archipel d’icebergs• Les données sont cachées sous les pages HTML (deep web)• Seules les pages HTML sont liées entre elles• Les pages HTML sont faites pour les humains• Ce que veulent les machines, ce sont des données • et des données liées – car elles se complètent les unes les autres – car les liens permettent de naviguer et de découvrir • Et des liens qualifiés, signifiants – au-delà du « voir aussi » des hyperliens
  6. 6. Le web de données liées Données Documents Base de donnéesLiens entre les Hyperlienbases de données Base de données
  7. 7. Le web de données liées Données Documents Base de donnéesLiens entre les Hyperlienbases de données Base de données
  8. 8. Persée Une base de données DOCUMENTS id auteur titre doi :10.3406/mefr.1959.7458 auteur_mefr_1904 RetractatioLien interne à la base AUTEURS id nom auteur_mefr_1904 Paul Veyne
  9. 9. Sudoc + IdRef Une autre base de données LIVRES id z7XX titrepropre editeur 068391307 027182800 Le Pain et le cirque Le SeuilLien interne à la base PERSONNES id nom personnetype 027182800 Veyne, Paul (1930-…. 0
  10. 10. DOCUMENTS #1 Comment lier la donnée d’une baseid auteur titre à la donnée de l’autre base ?doi :10.3406/mefr. auteur_mefr_1904 Retractatio1959.7458 #2 Comment lier deux bases AUTEURS qui n’ont pas le même schémaid nom #3 Comment qualifierauteur_mefr_1904 Paul Veyne la nature de ce lien ? #4 Comment faire tout ça sur le Web, en surface ? LIVRES id z7XX titrepropre editeur 068391307 027182800 Le Pain et le Le Seuil cirque PERSONNES est la même id nom personnetype entité que 027182800 Veyne, Paul (1930-…. 0
  11. 11. COMMENT ARRIVER À ÇA ?
  12. 12. Le nuage du web de données liées
  13. 13. Le nuage du web de données liées
  14. 14. Les données ABES sur le web de données, avec IdRef pour pivot
  15. 15. RDFUN MODÈLE GÉNÉRAL POURDÉCRIRE … N’IMPORTE QUOI
  16. 16. RDF = Graphes « Paul Veyne » auteur_mefr_1904 doi:10.3406/ mefr.1959.7458 « Retractatio »En RDF, • une ressource (qch) est en relation avec a telle relation avec • soit une autre ressource qch qch • soit un mot qch a telle relation avec « mot »
  17. 17. Nommer les relations « Paul Veyne » auteur_mefr_1904 doi:10.3406/ mefr.1959.7458 « Retractatio »Les relations (prédicats) ont un nom précis.Ce nom est une URL. ex : dc:title = http://purl.org/dc/elements/1.1/title rda:title | abes:title | isbd:title
  18. 18. Nommer les ressources « Paul Veyne » http://www.per see.fr/auteur_m efr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio »Les entités (ressources) ont un nom précis.Ce nom est une URL. ex : http://dx.doi.org/doi:10.3406/mefr.1959.7458 ex : http://www.sudoc.fr/092673007/id
  19. 19. Des graphes aux triplets « Paul Veyne » http://www.per see.fr/auteur_m efr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio » Ecrire ce graphe<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dc:title « Retractatio ».<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dcterms:creator <http://www.persee.fr/auteur_mefr_1904/id>.< http://www.persee.fr/auteur_mefr_1904/id > foaf:name « Paul Veyne » Triplets RDF
  20. 20. 2 bases séparées « Paul Veyne » http://www.per see.fr/auteur_m efr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio » http://dx.doi.org/ truc:subject http://id.loc.gov/au skos:prefLabel doi:10.3406/ thorities/subjects/s « Credit » mefr.1959.7458 h85033856Deux sites en RDF peuvent parler de la même chose – explicitement ici (même nom (URL)).
  21. 21. On agrège les 2 bases « Paul Veyne » http://www.per see.fr/auteur_me fr_1904/id http://dx.doi.org/ « Retractatio » doi:10.3406/ mefr.1959.7458 http://id.loc.gov/au skos:prefLabel thorities/subjects/s « Credit » h85033856L’agrégation des données est immédiateDeux sites en RDF peuvent parler de la même chose.Mais pas forcément de la même manière (pas de schéma ou de vocabulaire unique)
  22. 22. 2 bases séparées « Paul Veyne » http://www.per see.fr/auteur_m efr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio » truc:subject http://id.loc.gov/au skos:prefLabel http://www.truc. « Credit » thorities/subjects/s co.nz/wyz123 h85033856Deux sites en RDF peuvent parler de la même chose – implicitement ici (deux noms différents !) Problème pour les agréger
  23. 23. 2 bases séparées « Paul Veyne » http://www.per see.fr/auteur_m efr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio » truc:subject http://id.loc.gov/au skos:prefLabel http://www.truc. « Credit » thorities/subjects/s co.nz/wyz123 h85033856 http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 Dire explicitement qu’il s’agit de la même entité avec owl:sameAs
  24. 24. On agrège les 2 bases « Paul Veyne » owl:sameAs http://www.per see.fr/auteur_me fr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio » http://id.loc.gov/au skos:prefLabel http://www.truc. « Credit » thorities/subjects/s co.nz/wyz123 truc:subject h85033856 owl:sameAsGrâce à owl:sameAS, la fusion est totale : tout ce qu’on dit de l’un est aussi vrai de l’autre
  25. 25. Paul Veyne dans le RDF de VIAF http://viaf.org/viaf/108250528/rdf.xml http://viaf.org /viaf/108250528 Le Veyne owl:sameAs de VIAF et le Veyne d’IdRef ne font qu’unhttp://www.idref.fr /027182800/id
  26. 26. On ajoute un peu de sémantique truc:subject http://id.loc.gov/au skos:prefLabel http://www.truc. « Credit » thorities/subjects/s co.nz/wyz123 h85033856 rdfs:subPropertyOf Schémas RDF truc:subject dcterms:subject OntologiesLe schéma RDF ajoute des informations sur le vocabulaire utilisé (propriétés des propriétés etdes classes)Ce qui permet de faire du raisonnement 
  27. 27. On en déduit que… truc:subject http://id.loc.gov/au skos:prefLabel http://www.truc. « Credit » thorities/subjects/s co.nz/wyz123 h85033856 rdfs:subPropertyOf Schémas RDF truc:subject dcterms:subject Ontologies http://www.truc. dcterms:subject http://id.loc.gov/au co.nz/wyz123 thorities/subjects/s Triplets déduits h85033856Le raisonnement permet d’ajouter des informations (triplets).En l’occurrence, il permet d’exprimer automatiquement en Dublin Core un triplet qui utilisaitun vocabulaire truc non standard
  28. 28. Aujourd’hui Fonds Calames Livre Sudoc Auteur IdRef Thèse theses.fr owl:sameAs Auteur VIAF Auteur BnF owl:sameAs Auteur Auteur ISNI Wikipedia
  29. 29. Demain Fonds Calames Livre Sudoc Auteur IdRef Thèse theses.fr owl:sameAs Auteur VIAF Auteur BnF Auteur Auteur ISNI Wikipedia
  30. 30. + articles, éditions scientifiques, Après-demain peut-être ? Fonds numérisation, etc. Calames Livre Worldcat Livre Sudoc cite Auteur IdRef Données Thèse brutes theses.fr a pour owl:sameAs+ brevets,projets ANR, dérivéetc. Auteur HAL CCSD Auteur VIAF Article HAL CCSD Auteur BnF owl:sameAs + CrossRef, revue s, indicateurs d’usage, etc. Auteur Auteur ISNI Wikipedia
  31. 31. http://www.flickr.com/photos/danbri/6233467501/
  32. 32. http://www.circuitdomain.com/PCB%20Prototyping/PCB.htm
  33. 33. ABES, charte graphique (circa 2000)
  34. 34. Vertu EffetRDF offre un modèle universel Inutile de chercher le format qui permet d’exprimer toute miracle qui marchera pour donnée, quelle que soit la le MARC du Sudoc et norme de description. d’IdRef, le TEF de STAR,Cela rend bien plus facile l’EAD de Calames, l’ONIX de l’agrégation de données tel éditeur, le A++ de diverses Springer (Lic. Nat.), le Bloubiboulga de tel autre, etc. #abes #hubdedonnées #istex
  35. 35. Vertu EffetRDF rend les données La notice d’autorité n’a pas extensibles. besoin de tout stocker sur une personne. Il vaut mieux en dire le strict nécessaire et faire des liens vers d’autres sources (ex : dictionnaires biographiques … en RDF) Idem pour les données bibliographiques (prix, recensions, influences, etc.) #idref #ist #wikipedia #webofdata
  36. 36. Vertu EffetRDF n’impose pas de schéma Devons-nous utiliser unique. On peut mixer les RDA, Dublin Core ou un vocabulaires vocabulaire bibliographique à nous ? On peut faire les trois. On peut aussi utiliser un vocabulaire dont le schéma explicite ses relations avec un vocabulaire standard (cf. truc:subject et dcterms:subject) #ouverturedesdonnées #hubdedonnées #istex
  37. 37. Vertu EffetRDF permet de raisonner sur Dans le projet SudocAD, on a les données, pour les essayé de déduire quelle enrichir ou contrôler leur est la bonne autorité à lier à cohérence une notice bibliographique #hubdedonnées #sudocad #qualinca
  38. 38. En savoir plus• Infos : http://punktokomo.abes.fr/tag/semantique-web/• Outil : inspector.sindice.com• Tutos : http://web-semantique.developpez.com/tutoriels/
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×