• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Jabes2012 : tutoriel web de données
 

Jabes2012 : tutoriel web de données

on

  • 1,095 views

Tutoriel de 30' à l'aube, le second jour des journées ABES 2012.

Tutoriel de 30' à l'aube, le second jour des journées ABES 2012.
Je vous rassure : la laideur de la page de titre est intentionnelle, à vocation pédagogique (trop long à vous expliquer).

Statistics

Views

Total Views
1,095
Views on SlideShare
1,095
Embed Views
0

Actions

Likes
5
Downloads
10
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution-NonCommercial LicenseCC Attribution-NonCommercial License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel

Jabes2012 : tutoriel web de données Jabes2012 : tutoriel web de données Presentation Transcript

  • Vers le web de données#tutoriel #30’ #jabes2012
  • Le web de données, c’est pas quoi ? Base WebDocuments GED Le Web = Web de documents Données Base de données Web de données
  • Le Web, web de documents Données Documents Base de données Hyperlien Base de données
  • http://fyeah-icebergs.tumblr.com/post/1063474140
  • Un archipel d’icebergs• Les données sont cachées sous les pages HTML (deep web)• Seules les pages HTML sont liées entre elles• Les pages HTML sont faites pour les humains• Ce que veulent les machines, ce sont des données • et des données liées – car elles se complètent les unes les autres – car les liens permettent de naviguer et de découvrir • Et des liens qualifiés, signifiants – au-delà du « voir aussi » des hyperliens
  • Le web de données liées Données Documents Base de donnéesLiens entre les Hyperlienbases de données Base de données
  • Le web de données liées Données Documents Base de donnéesLiens entre les Hyperlienbases de données Base de données
  • Persée Une base de données DOCUMENTS id auteur titre doi :10.3406/mefr.1959.7458 auteur_mefr_1904 RetractatioLien interne à la base AUTEURS id nom auteur_mefr_1904 Paul Veyne
  • Sudoc + IdRef Une autre base de données LIVRES id z7XX titrepropre editeur 068391307 027182800 Le Pain et le cirque Le SeuilLien interne à la base PERSONNES id nom personnetype 027182800 Veyne, Paul (1930-…. 0
  • DOCUMENTS #1 Comment lier la donnée d’une baseid auteur titre à la donnée de l’autre base ?doi :10.3406/mefr. auteur_mefr_1904 Retractatio1959.7458 #2 Comment lier deux bases AUTEURS qui n’ont pas le même schémaid nom #3 Comment qualifierauteur_mefr_1904 Paul Veyne la nature de ce lien ? #4 Comment faire tout ça sur le Web, en surface ? LIVRES id z7XX titrepropre editeur 068391307 027182800 Le Pain et le Le Seuil cirque PERSONNES est la même id nom personnetype entité que 027182800 Veyne, Paul (1930-…. 0
  • COMMENT ARRIVER À ÇA ?
  • Le nuage du web de données liées
  • Le nuage du web de données liées
  • Les données ABES sur le web de données, avec IdRef pour pivot
  • RDFUN MODÈLE GÉNÉRAL POURDÉCRIRE … N’IMPORTE QUOI
  • RDF = Graphes « Paul Veyne » auteur_mefr_1904 doi:10.3406/ mefr.1959.7458 « Retractatio »En RDF, • une ressource (qch) est en relation avec a telle relation avec • soit une autre ressource qch qch • soit un mot qch a telle relation avec « mot »
  • Nommer les relations « Paul Veyne » auteur_mefr_1904 doi:10.3406/ mefr.1959.7458 « Retractatio »Les relations (prédicats) ont un nom précis.Ce nom est une URL. ex : dc:title = http://purl.org/dc/elements/1.1/title rda:title | abes:title | isbd:title
  • Nommer les ressources « Paul Veyne » http://www.per see.fr/auteur_m efr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio »Les entités (ressources) ont un nom précis.Ce nom est une URL. ex : http://dx.doi.org/doi:10.3406/mefr.1959.7458 ex : http://www.sudoc.fr/092673007/id
  • Des graphes aux triplets « Paul Veyne » http://www.per see.fr/auteur_m efr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio » Ecrire ce graphe<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dc:title « Retractatio ».<http://dx.doi.org/doi:10.3406/mefr.1959.7458> dcterms:creator <http://www.persee.fr/auteur_mefr_1904/id>.< http://www.persee.fr/auteur_mefr_1904/id > foaf:name « Paul Veyne » Triplets RDF
  • 2 bases séparées « Paul Veyne » http://www.per see.fr/auteur_m efr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio » http://dx.doi.org/ truc:subject http://id.loc.gov/au skos:prefLabel doi:10.3406/ thorities/subjects/s « Credit » mefr.1959.7458 h85033856Deux sites en RDF peuvent parler de la même chose – explicitement ici (même nom (URL)).
  • On agrège les 2 bases « Paul Veyne » http://www.per see.fr/auteur_me fr_1904/id http://dx.doi.org/ « Retractatio » doi:10.3406/ mefr.1959.7458 http://id.loc.gov/au skos:prefLabel thorities/subjects/s « Credit » h85033856L’agrégation des données est immédiateDeux sites en RDF peuvent parler de la même chose.Mais pas forcément de la même manière (pas de schéma ou de vocabulaire unique)
  • 2 bases séparées « Paul Veyne » http://www.per see.fr/auteur_m efr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio » truc:subject http://id.loc.gov/au skos:prefLabel http://www.truc. « Credit » thorities/subjects/s co.nz/wyz123 h85033856Deux sites en RDF peuvent parler de la même chose – implicitement ici (deux noms différents !) Problème pour les agréger
  • 2 bases séparées « Paul Veyne » http://www.per see.fr/auteur_m efr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio » truc:subject http://id.loc.gov/au skos:prefLabel http://www.truc. « Credit » thorities/subjects/s co.nz/wyz123 h85033856 http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 Dire explicitement qu’il s’agit de la même entité avec owl:sameAs
  • On agrège les 2 bases « Paul Veyne » owl:sameAs http://www.per see.fr/auteur_me fr_1904/id http://dx.doi.org/ doi:10.3406/ mefr.1959.7458 « Retractatio » http://id.loc.gov/au skos:prefLabel http://www.truc. « Credit » thorities/subjects/s co.nz/wyz123 truc:subject h85033856 owl:sameAsGrâce à owl:sameAS, la fusion est totale : tout ce qu’on dit de l’un est aussi vrai de l’autre
  • Paul Veyne dans le RDF de VIAF http://viaf.org/viaf/108250528/rdf.xml http://viaf.org /viaf/108250528 Le Veyne owl:sameAs de VIAF et le Veyne d’IdRef ne font qu’unhttp://www.idref.fr /027182800/id
  • On ajoute un peu de sémantique truc:subject http://id.loc.gov/au skos:prefLabel http://www.truc. « Credit » thorities/subjects/s co.nz/wyz123 h85033856 rdfs:subPropertyOf Schémas RDF truc:subject dcterms:subject OntologiesLe schéma RDF ajoute des informations sur le vocabulaire utilisé (propriétés des propriétés etdes classes)Ce qui permet de faire du raisonnement 
  • On en déduit que… truc:subject http://id.loc.gov/au skos:prefLabel http://www.truc. « Credit » thorities/subjects/s co.nz/wyz123 h85033856 rdfs:subPropertyOf Schémas RDF truc:subject dcterms:subject Ontologies http://www.truc. dcterms:subject http://id.loc.gov/au co.nz/wyz123 thorities/subjects/s Triplets déduits h85033856Le raisonnement permet d’ajouter des informations (triplets).En l’occurrence, il permet d’exprimer automatiquement en Dublin Core un triplet qui utilisaitun vocabulaire truc non standard
  • Aujourd’hui Fonds Calames Livre Sudoc Auteur IdRef Thèse theses.fr owl:sameAs Auteur VIAF Auteur BnF owl:sameAs Auteur Auteur ISNI Wikipedia
  • Demain Fonds Calames Livre Sudoc Auteur IdRef Thèse theses.fr owl:sameAs Auteur VIAF Auteur BnF Auteur Auteur ISNI Wikipedia
  • + articles, éditions scientifiques, Après-demain peut-être ? Fonds numérisation, etc. Calames Livre Worldcat Livre Sudoc cite Auteur IdRef Données Thèse brutes theses.fr a pour owl:sameAs+ brevets,projets ANR, dérivéetc. Auteur HAL CCSD Auteur VIAF Article HAL CCSD Auteur BnF owl:sameAs + CrossRef, revue s, indicateurs d’usage, etc. Auteur Auteur ISNI Wikipedia
  • http://www.flickr.com/photos/danbri/6233467501/
  • http://www.circuitdomain.com/PCB%20Prototyping/PCB.htm
  • ABES, charte graphique (circa 2000)
  • Vertu EffetRDF offre un modèle universel Inutile de chercher le format qui permet d’exprimer toute miracle qui marchera pour donnée, quelle que soit la le MARC du Sudoc et norme de description. d’IdRef, le TEF de STAR,Cela rend bien plus facile l’EAD de Calames, l’ONIX de l’agrégation de données tel éditeur, le A++ de diverses Springer (Lic. Nat.), le Bloubiboulga de tel autre, etc. #abes #hubdedonnées #istex
  • Vertu EffetRDF rend les données La notice d’autorité n’a pas extensibles. besoin de tout stocker sur une personne. Il vaut mieux en dire le strict nécessaire et faire des liens vers d’autres sources (ex : dictionnaires biographiques … en RDF) Idem pour les données bibliographiques (prix, recensions, influences, etc.) #idref #ist #wikipedia #webofdata
  • Vertu EffetRDF n’impose pas de schéma Devons-nous utiliser unique. On peut mixer les RDA, Dublin Core ou un vocabulaires vocabulaire bibliographique à nous ? On peut faire les trois. On peut aussi utiliser un vocabulaire dont le schéma explicite ses relations avec un vocabulaire standard (cf. truc:subject et dcterms:subject) #ouverturedesdonnées #hubdedonnées #istex
  • Vertu EffetRDF permet de raisonner sur Dans le projet SudocAD, on a les données, pour les essayé de déduire quelle enrichir ou contrôler leur est la bonne autorité à lier à cohérence une notice bibliographique #hubdedonnées #sudocad #qualinca
  • En savoir plus• Infos : http://punktokomo.abes.fr/tag/semantique-web/• Outil : inspector.sindice.com• Tutos : http://web-semantique.developpez.com/tutoriels/