• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Document et structure : vers un web socio-sémantique
 

Document et structure : vers un web socio-sémantique

on

  • 5,079 views

Supports pour un tutorial sur les nouvelles structures de documents et leur capacité à faire circuler les métadonnées et construire un web socio-sémantique....

Supports pour un tutorial sur les nouvelles structures de documents et leur capacité à faire circuler les métadonnées et construire un web socio-sémantique.
Tutoriel délivré au congrès RSI, Deauville, septembre 2007.

Statistics

Views

Total Views
5,079
Views on SlideShare
5,069
Embed Views
10

Actions

Likes
4
Downloads
63
Comments
0

2 Embeds 10

http://metadonnee.wordpress.com 5
http://www.slideshare.net 5

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Document et structure : vers un web socio-sémantique Document et structure : vers un web socio-sémantique Presentation Transcript

    • Document et structure Tutorial RSI Deauville, le 27 septembre 2007 Hervé Le Crosnier Université de Caen
    • Données et documents ● document : destiné à la lecture ● données : informations pouvant être « traitées » (calcul, sélection, agrégation, découverte, indexation,...) ● le numérique produit un rapprochement des données et des documents
    • Données -> document ● établir une facture ● widget météo ● données : XML ● document : – html – pdf – image (svg)
    • RSS ● <item> ● <title>La répression des manifestations en Birmanie a fait quatre morts</title> ● <link>http://www.lemonde.fr/web/article/0,1-0@2-3216,36- 959582,0.html?xtor=RSS-3208</link> ● <description>Les forces de l'ordre ont chargé les manifestants, mercredi à Rangoun. Le Conseil de sécurité de l'ONU doit se réunir d'urgence.</description> ● <pubDate>Wed, 26 Sep 2007 16:58:08 GMT</pubDate> ● <guid isPermaLink=quot;falsequot;>http://www.lemonde.fr/web/article/0,1-0@2- 3216,36-959582,0.html?xtor=RSS-3208</guid> ● <enclosure url=quot;http://medias.lemonde.fr/mmpub/edt/ill/2007/09/26/h_1_ill_959654_birma nie.jpgquot; type=quot;image/jpegquot; length=quot;2502quot;></enclosure> ● </item>
    • Innovation ascendante ● simplicité du format ● usage simple (l'alerte de nouveautés) ● extensibilité : (X)ML ● facilité de créer des parseurs pour intégrer dans des documents dynamiques ● existence d'agrégateurs
    • Producteur de flux ● intérêt : – faible utilisation de la bande passante – alerter sur les nouveautés de son site – attirer des lecteurs (économie de l'attention) – insertion de la publicité dans les flux
    • Architecture Widgets Data is power
    • Channel ● <?xml version=quot;1.0quot; encoding=quot;iso-8859-1quot;?><rss version=quot;2.0quot; xmlns:rdf=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot;> ● <channel> ● ● <title>Le Monde.fr : A la une</title> ● <link>http://www.lemonde.fr</link> ● <description>Toute l'actualité au moment de la connexion</description> ● <copyright>Copyright Le Monde.fr</copyright> ● <image><url>http://medias.lemonde.fr/mmpub/img/lgo/lemondefr_rss.gif</url ><title>Le Monde.fr</title><link>http://www.lemonde.fr</link></image> ● <pubDate>Wed, 26 Sep 2007 17:05:25 GMT</pubDate>
    • Enclosure (Podcast) ● lier à un objet numérique (son, vidéo,...) ● <item> <title>Musik Please -Hors Série- Spécial 25 ans de Hip Hop</title> <link>http://www.musikplease.com/index.php</link> <description>Une playlist thématique, histoire de tourner ensemble quelques pages de l'histoire musicale du hip hop. [...]</description> <itunes:author>Pierre Fosco</itunes:author> <itunes:subtitle>Une playlist thématique [...]</itunes:subtitle> <itunes:explicit>no</itunes:explicit> <itunes:keywords>podcast,blog</itunes:keywords> <pubDate>Thu, 20 Sep 2007 13:30:12 +0200</pubDate> <enclosure url=quot;http://pauvcast.net/explorer/podcasts/musikplease/2007/ musikpleasehs2.mp3quot; length=quot;11766717quot; type=quot;audio/mpegquot; /> <guid isPermaLink=quot;falsequot;>musikpleasehs2.mp3</guid> <dc:creator>Pierre Fosco</dc:creator> </item>
    • La glu du web 2.0 ● nouvelles, flux, blogs ● playlists, délinéarisation ● espaces de nom (faire cohabiter plusieurs applications avec la même architecture de document) ● personnalisation de l'information ● déterritorialisation (accès à l'unité à partir d'annotations externes) – digg, del.icio.us, ...
    • Du document aux données ● Extraction de connaissance ● Analyse linguistique et sémantique ● indexation -> – accès aux documents – appariement ● découpage de scènes (vidéo) ● reconnaissance d'objets (image)
    • Encoder l'information dans le document ● distinction entre le document logique (structure de document) ● le document lisible par un humain (réalisation) ● la (les) feuilles de style ● trouver une forme d'encodage qui facilite l'extraction par des robots – de l'information – des métadonnées
    • Microformats ● hCard, pour la description des personnes et organisations ● <div class=quot;vcardquot;> <div class=quot;fn orgquot;>Wikimedia Foundation Inc.</div> <div class=quot;adrquot;> <div class=quot;street-addressquot;>200 2nd Ave. South #358</div> <div> <span class=quot;localityquot;>St. Petersburg</span>, <abbr class=quot;regionquot; title=quot;Floridaquot;>FL</abbr> <span class=quot;postal-codequot;>33701-4313</span> </div> <div class=quot;country-namequot;>USA</div> </div> <div>Phone: <span class=quot;telquot;>+1-727-231-0101</span></div> <div>Email: <span class=quot;emailquot;>info@wikimedia.org</span></div> <div> <span class=quot;telquot;><span class=quot;typequot;>Fax</span>: <span class=quot;valuequot;>+1-727-258-0207</span></span> </div> </div>
    • Ce que sont les µf ● un moyen de penser les données dans le document ● des principes de design pour les données ● adapté à « la sémantique du monde réel du XHTML » (lowercase semantic web) ● un support pour la création d'outils de lecture et d'extraction (cf Operator)
    • ce que ne sont pas les µf ● un nouveau langage ● une obligation pour les designer à changer toutes leurs pratiques ● une panacée pour toutes les taxonimies, ontologies,... ● une approche entièrement nouvelle qui jetterait à la poubelle tout ce qui marche actuellement – http://microformats.org
    • Principes des µf ● résoudre des problèmes spécifiques ● partir du plus simple possible ● un design pour les humains en premier, les machines ensuite ● réutilisation de blocs existant, modularité, capacité à s'insérer ● permet des développements et des services décentralisés
    • Web 2.0 ● Un concept marketing ● Qui s'appuie sur des changement réels du web – innovations techniques – modèle de participation sociale – changement dans les formes de valorisation économique ● C'est la conjonction de ces trois renouvellements qui fait le Web 2.0
    • La conversation ● les documents servent de support à des relations sociales ● on parle d'autres documents (blogs) ● on sélectionne des documents... et on le fait savoir (taggage, folksonomie) ● lecture coopérative ● priorité à l'usage (innovations ascendante, « pro-am révolution » )
    • Web sémantique ● Rendre l'information disponible sur le web utilisable directement par des machines ● pour améliorer le service de filtrage ou d'extraction de connaissances proposé aux utilisateurs ● Un projet décentralisé, à l'image du web ● ... et fédérateur (visant l'ensemble du savoir)
    • Quelques caractéristiques ● construire des descriptions sémantiques utilisables par des communautés à l'intérieur du web ● Le web sémantique s'appuie sur une forte normalisation – des échanges (SOAP, WSDL, XML) – des langages de descriptions (RDF, OWL) – des langages de requêtes et d'inférence (SPARQL) ● Il est nécessaire de consacrer une partie de l'énergie de production de documents à organiser des accès sémantiques (métadonnées, construction de schémas de description et d'ontologies)
    • Web 2.0 et Web sémantique ● utiliser les usages ● modéliser les simples, mais cumulés, documents et leur accès des lecteurs ● construire des outils ● modélisation répartis et partagés statistiques par l'usage – sémantiques (ontologies, (cf correcteur orthographique de schémas) Google) – ressources ● indexation sociale ● rigueur dans la description (lecture par ● appariement statistique machine, IA) (notamment pour la publicité) ● délégation in fine à la machine (échanges multi-agents)
    • Web socio-sémantique ● Fournir des outils (sémantiques et logiciels de traitement) qui sauront prendre place dans l'existant ● Production coopérative de sens (Wikipedia, catalogues coopératifs, bibliothèques numériques, cyberinfrastructures) ● Plusieurs méthodes pour diminuer la pression cognitive sur le lecteur (sélection, résumé, émergence, ou conseil, commentaire, réseau social ?)
    • Un web de métadonnées ● Metadata is machine understandable information about web resources or other things Tim Berners-Lee ● metadata is data les métadonnées sont enregistrées comme des données, et on peut à nouveau faire des assertions sur elles ● The architecture is of metadata represented as a set of independent assertions. chaque assertion est indépendante ● As much as possible of the syntax and semantics should be able to be acquired by reference from a metadata document. ● Un web de métadonnées http://w3c.org/DesignIssues/Metadata
    • Métadonnées ● Données permettant de décrire d'autres documents ou données ● Exploitables par des robots ● Utilisées pour classer, repérer, organiser l'information ● Exemple : les fiches catalographiques des bibliothèques ● Exemple : les tag ID3 des fichiers mp3
    • Métadonnées documentaires ● 4 types d'informations – Contenu : titre, sujet, description, source, langage, relation, couverture – Propriété intellectuelle : créateur, éditeur, contributeur, droits – Matérialisation : date, type, format, identifiant. – Géolocalisation : données GPS, thésaurus des villes et régions
    • Dublin Core ● 1. Title ● 8. Type ● 2. Creator ● 9. Format ● 3. Subject ● 10. Identifier ● 4. Description ● 11. Source ● 5. Publisher ● 12. Language ● 6. Contributor ● 13. Relation ● 7. Date
    • Images ● Données EXIF – données physiques – intégrées directement dans l'image par les appareils numériques ● Données XMP – données physiques et documentaires – usage lié aux logiciels de traitement d'images (Photoshop, Acrobat,...) – XML : données extensives – http://www.adobe.com/products/xmp/
    • Son ● Nécessité de contextualiser les documents sonores ● Nouveaux enjeux de l'industrie musicale ● appariement (Pandora) ou pression sociale (lastFM)
    • RDF ● RDF : Resource Description Framework ● Un langage de graphe ● indépendance des assertions ● utilisé pour les métadonnées
    • Représentation XML ● <?xml version=quot;1.0quot;?> <rdf:RDF xmlns:rdf=quot;http://www.w3.org/1999/02/22-rdf-syntax-ns#quot; xmlns:dc=quot;http://purl.org/dc/elements/1.1/quot; xmlns:exterms=quot;http://www.example.org/terms/quot;> <rdf:Description rdf:about=quot;http://www.example.org/index.htmlquot;> <exterms:creation-date>August 16, 1999</exterms:creation-date> <dc:language>en</dc:language> <dc:creator rdf:resource=quot;http://www.example.org/staffid/85740quot;/> </rdf:Description> </rdf:RDF>
    • Assertions ● En RDF, chaque assertion est indépendante ● on la représente par un triplet ● Sujet : à propos de quoi (about) ● Prédicat : quelle relation ● Objet : quel renseignement sur cette relation
    • Exemple ● Hernani est une pièce de théâtre dont l'auteur est Victor Hugo ● Hernani est une pièce de théâtre – Hernani : sujet – est une : prédicat – pièce de théâtre : objet ● Hernani a pour auteur Victor Hugo – Hernani : sujet – auteur : prédicat – Victor Hugo : objet
    • RDF-A ● Intégrer les triplets RDF dans du code HTML ● <p class=quot;contactinfoquot; about=quot;http://example.org/staff/joquot;> My name is <span property=quot;contact:fnquot;>Jo Smith</span>. I'm a <span property=quot;contact:titlequot;> distinguished web engineer </span> at <a rel=quot;contact:orgquot; href=quot;http://example.orgquot;> Example.org </a>. You can contact me <a rel=quot;contact:emailquot; href=quot;mailto:jo@example.orgquot;> via email </a> </p>
    • Le « cake » du web sémantique
    • URI ● Chaque élément d'une assertion (triplet) est représenté par un URI ● Uniform Ressource Identifier ● Désigner des documents, des modes d'organisation (schémas, ontologies) ● exemple : que veut dire titre en DC ● http://dublincore.org/2006/12/18/dces.rdf#title
    • URL ● Uniform ressource Locator ● Notation mondiale pour retrouver un document (nappe de restaurant) ● choisir une dénomination claire, mémorisable ● le « nom de domaine » est un choix pour organiser l'espace mental
    • URL ->architecture de l'information ● éviter les URL trop longs – http://bbf.enssib.fr/sdx/BBF/frontoffice/2007/03/document.xsp?id=bbf-2007-03-0005- 001/2007/03/fam-dossier/dossier&statutMaitre=non&statutFils=non ● ne pas mélanger la désignation du document et la méthode technique utilisée pour le retrouver – http://monsite.com/article.php?534 ● clarté des URL (marque de confiance) – http://tinyurl.com/a45r67 ● référencement
    • URL rewriting ● Organiser son site pour pouvoir nommer les documents (modèle de la classification) ● Diffuser des versions stables des URL ● Ré-écrire les URL à l'entrée du site ● Utiliser un « routeur » interne pour orienter vers les documents
    • Du document aux relations ● XML : balisage sémantique ● RDF : relations sémantiques ● Lecture : interprétation par un humain ● Extraction : transformer l'information (GRDDL) en utilisant au mieux le balisage (microformats, RDF-A) ● Requêtes logiques : extraire un « sous- graphe » en tenant compte des définitions des relations logiques (prédicats) – langage SPARQL
    • GRDDL ● Indiquer la présence de données à l'intérieur d'un document (microformats, RDF-a,...) ● Indiquer l'URI d'un programme susceptible de transformer ces données en un fichier RDF ● Glanage : ré-utilisation secondaire des informations diffusées
    • Cycle de vie du document ● maîtriser les outils de création et de gestion, ● faciliter les échanges et la diffusion, ● garantir l’accessibilité et la conservation. ● -> de la création à l'archivage (et éventuellement la destruction)
    • Enjeux ● Organisation : une seule chaîne de traitement pour tous les formats (papier, web, mobile,...) ● Culture commune : formation aux outils, compréhension du devenir des documents – anti-conversation ? ● Economie : faire face à la masse des documents (temps de lecture, synthèse) ● Patrimoine : conserver la mémoire numérique et numériser la mémoire
    • Référence ● Pouvoir se référer à un document numérique ● A tout moment (du présent à l'archivage -> traçabilité documentaire) ● Document et preuve (B2B, contrats) ● Pérennité, intégrité, sécurité
    • Questions ● Normalisation (technique, règles de conservation) ● De la base de données au document (du transactionnel au pérenne) ● Signature et horodatage ● Support de stockage, de diffusion, d'archivage ● => Architectes de l'information
    • Redocumentarisation ● Les documents numériques ont besoin de clés de description complexes (et d'outils d'interprétation de cette complexité) ● le continuum numérique permet d'associer traces et documents aux relations humaines ● organiser la gouvernance de l'univers documentaire numérique (sélection, validation, conservation,...)
    • Recherche ● RTP-Doc -> Roger T. Pédauque ● Réseau coopératif de la recherche sur le document numérique (170 chercheurs francophones) ● Trois angles : – forme : relation anthropologique à la lecture – texte : interprétation, classification – médium : relation et organisation sociale
    • Enseignement ● Nécessité de formations assurant la synthèse des trois aspects du DN ● Nouveaux corps de métiers (archivage électronique, cycle de vie, architectes de l'information, ingénierie documentaire, projection et plannification) ● Formation permanente ● Université de Caen + CNAM Paris ● Master « Document numérique » à la rentrée 2008
    • Roger T. Pédauque ● Comme l'ère industrielle a été marquée par l'interchangeabilité des parties, la société de l'information serait caractérisée par la possibilité de ré-utiliser l'information (p.71) ● Un document ne serait finalement qu'un contrat entre les hommes dont les qualités anthropologiques (lisibilité, perception), intellectuelles (compréhension, assimilation) et sociales (sociabilité, intégration) fonderait une part de leur humanité, de leur capacité à vivre ensemble. Dans cette perspective, le numérique n'est qu'une modalité de multiplication et d'évolution de ces contrats.(p. 78)