Your SlideShare is downloading. ×
Nicolas Delaforge: Modeling the Web resource, extracting the context: stakes for digital memory.
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Nicolas Delaforge: Modeling the Web resource, extracting the context: stakes for digital memory.

1,239
views

Published on

Published in: Technology

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,239
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
12
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Présentation
    Informaticien sensible aux problèmes

    TODO : rajouter un slide « Motivating scenario » qui donne un scénario très concret qui nous a amené à cette réfléxion

    Scenario bookmark insuffisant, identifier des verrous.
  • Objectif de cette présentation, n’est pas de proposer une réponse toute faite, mais de réfléchir ensemble !!
    Une question bien posée est de se poser les bonnes questions pour avancer sur la définition.
  • Qui n’a jamais eu de problème pour gérer ses bookmarks ?
  • Si le web est un territoire pourquoi n’arrive-t-on pas à le cartographier ?
  • Objectif de cette présentation, n’est pas de proposer une réponse toute faite, mais de réfléchir ensemble !!
    Une question bien posée constitue déjà une bonne partie de la réponse.
  • Augmentation constante du nombre de ressources accessibles en ligne.
    Diversification de la nature des ressources présentes.
    Gestion des références qui devient compliquée

    Ajouter que le nombre, hétérogénéité, moyens d’accès sont en constante évolution.
  • Illustration de l’expansion de l’Internet

    667 millions de milliards d'adresses IP disponibles par mm2 de la surface de la Terre
  • Avenir du web
  • Identification des objets de la vie de tous les jours, par des puces RFID
  • Ou par des QR codes
  • Web sémantique basé sur RDF, Resource Description Framework
    Apparition de débats autour de la notion de ressource
  • Evolution de la définition de la ressource
    1994 – Les objets « disponibles » (available) à travers le réseau, distinction entre URN et URL
    1998 – Tout ce qui peut être identifié (URI), les objets du réseau, mais aussi les services, les objets réels, les humains, etc
    2005 – La ressource peut être abstraite, concept, opérateur mathématique etc.

    Comment distinguer une ressource available d’une autre ?
    TAG => distinction entre ressource informationnelle et ressource non-informationnelle, code 303
  • Déréférencement d’URI, utilisation d’URI HTTP pour le nommage.

    Possible confusion entre nommage et adressage.
  • Evolution du LOD Cloud depuis 2007
  • LOD Cloud de mars 2009
  • Profusion d’URL, d’URI, la gestion des références devient un enjeu majeur pour l’orientation sur le(s) Web(s)

    Web élitiste, réservé aux geeks ?
    Comprendre le web nécessite des compétences spécialisées à la fois techniquement et conceptuellement.

    AJOUTER 3 URI différentes de tour eiffel au bout de chaque flèche.
  • Caractéristique des réseaux ouverts, erreur 404 répond aux problèmes de la maintenance des contenus.
    Sans erreur 404 pas de construction web possible.
  • Différence par rapport à l’auto-théticité : un document numérique « classique » ne change pas à chaque accès.
  • Double instabilité à l’accès et à la consultation

    Change la page en cours de lecture, à la manière des « diables » du cogito de Descartes qui pourraient troubler sa perception.
    Le « toujours déjà calculé », autothéticité du document numérique.


    Par rapport au document numérique : Relation 1 homme – 1 machine => N Hommes – N Machines

    Changement de la relation Auteur – Document – Lecteur avec incrustation de Google ads.
    Intervention directe dans le contenu. Virus informatique à comparer à Google Ads (business model, raisons économiques pour changer le contenu).

    Web => exploitation plus poussée des capacités auto-thétiques des documents numériques.
    Hyper-autothèse.
  • Peut-on considérer comme document, un support qui change de contenu tous les jours ?
  • Le support Web n’offre pas de stabilité à priori.
    La stabilisation des contenu est à la charge des diffuseurs.
  • Accès au contenu par URL + Date
    Temporalité de la référence.
    Création d’une histoire du Web.
  • Partage communautaire et indexation manuelle des références.
    Problème : les références ne sont pas contextualisées, il faut aller parcourir le contenu pour savoir ce que la référence contient.
    Pas de gestion des liens cassés, des contenus qui changent.
  • A rapprocher des techniques documentaires d’indexation lexicale.

    Version web = indexation sociale et non-experte
  • « Marque-page dynamique »
    Fonction sociale d’abonnement, notification, alerte, push.
  • Modèle documentaire du web basé sur la page.

    Entre la page et le Web, pas d’échelle intermédiaire.
    Pourtant unité éditoriale = site web

    Impossible de faire référence à un site dans son ensemble (référence à la page d’accueil en général).

    Pas de distinction évidente entre lien de navigation (lecture) et lien de citation/référence.
    Mélange Table des matières et table des références.

    HTML5 balises « nav » (à creuser), possible identification des liens de navigation.

    Projet Sitemaps.org pour la reconstruction à postériori du site dans un but d’indexation.


  • A quoi fait-on référence ici ?
    Un dispositif technique qui permet de produire des documents est-il un document ?

    Ambivalence de la page Web, support hybride entre support documentaire et dispositif d’interactions.
  • Remarquable : pour la première fois, l’outil et le produit de l’outil sont confondus dans leur identification.

    Exemple de la spreadsheet.

    Ajouter une comparaison entre formulaire papier et formulaire html.
    Dispositif d’écriture en plus dans le formulaire web.
    Documents pour l’Action de Zacklad.

    information medium
    knowledge medium
    interaction device
  • Remarquable : pour la première fois, l’outil et le produit de l’outil sont confondus dans leur identification.

    Exemple de la spreadsheet.

    Ajouter une comparaison entre formulaire papier et formulaire html.
    Dispositif d’écriture en plus dans le formulaire web.
    Documents pour l’Action de Zacklad.

    information medium
    knowledge medium
    interaction device
  • Espace des pages destinées à l’interaction homme-machine.
    Espace des web services principalement destinés aux machines.
    Espace des données, web sémantique, bases de données, annuaires LDAP…

    P : Pages Web accessibles en HTTP.
    S : Web-services accessibles en HTTP
    D : Données accessibles en HTTP

    Web 1.0 Très proche du document numérique classique. Mise en réseau de publications.
    DP : pages annotées sémantiquement
    SP : plateformes communautaires, CMS, e-commerce, e-banking
  • Donner des exemples
    Reboucler la problématique du bookmark sur les lièvres qui ont été levés.

    Problème de la désorientation (multiplication des références)
    Webmarking de lieu
    Webmarking de contenu

    Problème de l’instabilité de la référence
  • Transcript

    • 1. Modéliser la ressource web, contextualiser la référence : des enjeux pour le patrimoine numérique Philoweb’10 nicolas.delaforge@inria.fr Equipe Edelweiss – INRIA Sophia Antipolis Modeling the Web Resource, extracting the context : Stakes for the digital memory
    • 2. Motivating scenario Bookmark overload - Every day usage of bookmarks is boring - The Bookmark model hasn’t changed since Netscape - The Bookmark reference is inaccurate - BM is very difficult to reuse out of the browser Yet, Bookmarking system is one of the main way to access WWW (after Google of course...)
    • 3. Motivating scenario What are people doing online ?? - Looking for information  Tutorials, Wikipedia…  RSS, Google alerts - Producing information  Communicating about themselves - Doing some social activity  Twitter, Facebook, Blogs, Forums,… - Checking news about web sites or topics of interest  Business Intelligence - Using online applications or services  Webmail, Google docs  e-commerce, e-banking, e-administration  Intranet Different activities, Different objects, but a single tool to organize all.
    • 4. Is that all we can do?
    • 5. Motivating scenario Why is this technology so poor ? Why is it so difficult to design orientation tools ? Web User Point of View
    • 6. Possible part of the answer Once again…the technique is in advance over theory - The Web has evolved really fast - This evolution was mainly technology-driven - Lack of definitions  Mainly technical definitions are available Questions to be answered : - What is a Web site ? - What is a Web page ? - What is behind a Web reference ? - Is the Web made of digital documents or is it a big soup of web resources?
    • 7. Web resources are : - growing - heterogenous Observation #1
    • 8. IPv6 : Adresses multiplication 667 x 1015 IP adresses per mm2
    • 9. Internet of Things
    • 10. RFID
    • 11. QR Codes
    • 12. Semantic Web The Web of Data
    • 13. RDF : Identity Crisis HTTP code 303 Source : H. Halpin, V. Presutti Information Resource vs. Non Information Resource
    • 14. URI : W3C Best Practices Source : W3C, http://www.w3.org/TR/cooluris/ Content Negociation (Conneg) Linking Open Data (LOD)
    • 15. May 2007 April 2008 September 2008 March 2009 Linking Open Data
    • 16. Linking Open Data September 2010
    • 17. How to avoid disorientation ? http://www.dbpedia.org/id/EiffelTower http://www.dbpedia.org/doc/EiffelTower dbpedia://resource/EiffelTower
    • 18. Web reference is unreliable Observation #2
    • 19. HTTP 404 Page not found No Web without the 404 error code.
    • 20. Dynamic Web sites First instability cause : A (potential) content generation at every request
    • 21. Dynamic Web sites Second instability cause : client scripts execution during the reading.
    • 22. Resident Evil « Pour être sûr que je demeure fidèle à ma résolution de ne pas accepter comme vrai rien qui ne soit pas absolument certain, j’assumerai délibérément qu’un démon tout-puissant est continuellement en train de me tromper au sujet de l’existence du monde physique, incluant même mon propre corps. » Méditations Métaphysiques, Descartes
    • 23. Proof by Example Capturing a web site homepage « Le Monde »
    • 24. 11th October 12th October
    • 25. Documentation initiatives & Tools Observation #3
    • 26. Private Libraries
    • 27. Web Archiving French Legal Deposit IIPC Wayback Machine… Petabox – Wayback Machine
    • 28. Social Bookmarking
    • 29. Social Tagging
    • 30. Content syndication
    • 31. Scrapping Wozaik Zotero
    • 32. Cartography
    • 33. The Web native documentation model is insufficient. What do we refer ? Observation #4
    • 34. Page based model How to refer a web site as a whole? Homepage
    • 35. Looks like a document but… Is it? Excel Google Docs URL HTML Source Code
    • 36. HTML5 + Javascript new API Web pages are becoming Web applications - Future of the web :  an open repository of Web applications ? Yes this is a Web page !
    • 37. Hypothesis
    • 38. Building a Conceptual Framework Assertions - Modeling the Web objects and their references will help to design orientation solutions - Reference types can only be defined from a user point of view
    • 39. Web Page What it is : A Web re-presentation (of a resource state) An Information Medium + An Iteraction Device What it is not : A Memory extension (Tertiary Retention) * A Document *this property confers a great communication reactivity (data stream ?)
    • 40. Web spaces The Web is made of several layers P : Pages available through HTTP. S : Web services available through HTTP D : Data available through HTTP
    • 41. Web spaces Intersection Kind of Resources P* Web 1.0 S* Web services for composition D* Open Databases (RDF ou autres, sitemaps, LDAP…) SP Web 2.0, RIA, collaborative sites, e-commerce, e-banking… DS Connectors, Data convertors, SPARQL End points, OKKAM… DP RDFa annotated pages (ex : OGP), Microformats, Microdata DPS Pages « conneg ready », DBPedia * exclusive
    • 42. Webmark : Enhanced Bookmark Webmark, aims - To redesign the management of the references - To analyse the intentionnality of the marking - To exploit the context of the marking - To propose dedicated services according to the kind of the marking.
    • 43. Intentionnality of the Marking Identified kinds of marking - Content mark  interest for the content of the resource - Location mark  Interest for a place, a community - Application mark  Alias to favorite online applications - Interest Mark  The famous “I like it” or FOAF interest - Composition Mark  A service to be used later in a process
    • 44. Let’s play What kind of reference is it ?
    • 45. +
    • 46. +
    • 47. +
    • 48. +
    • 49. +
    • 50. +
    • 51. +
    • 52. Thank you for your attention
    • 53. Questions ?