L'unité documentaire sur le web

1,202 views
1,043 views

Published on

Présentation effectuée par Martin Lafréchoux aux ateliers DLWeb de l'INA, à Paris, en décembre 2010.

http://nologos.net / http://about.me/martin-lx

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,202
On SlideShare
0
From Embeds
0
Number of Embeds
67
Actions
Shares
0
Downloads
9
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

L'unité documentaire sur le web

  1. 1. De la bibliothèque numérique au web de donnéesL’unité documentaire sur internet Ateliers Méthodologiques DLWeb - Saison 2 3 décembre 2010 Martin Lafréchoux
  2. 2. ! Je suis en doctorat à Paris Ouest Nanterre, au laboratoire MoDyCo. Ma thèse est ensciences du langage, je plutôt un TAListe. Elle concerne le document sur internet, enparticulier le document textuel. Je vais parler de documents, plus précisément, je vais vous présenter les difficultésconceptuelles et pratiques auxquelles je me heurte actuellement, à l’université et dansl’entreprise. Le point commun de ces difficultés est qu’il n’existe pas de modélisationpermettant de conceptualiser et de manipuler tous les aspects d’une page web. Je commence tout juste mes recherches, je vais donc plutôt évoquer des problèmes quedes solutions. Et pour que ma présentation soit claire malgré tout, je partirai d’exemplesconcrets. Et comme je parlerai essentiellement de texte, je vous montrerai des images.
  3. 3. URL Pages DonnéesDans un premier temps, j’évaluerai l’adéquation entre la notion traditionnelle de document etle web.Ensuite je détaillerai le fonctionnement de plusieurs modes d’enregistrement du web - enparticulier les conséquences théoriques de choix pratiques.Enfin, je vous présenterai les problématiques plus nouvelles, liées à ce qu’on appellegénéralement le web de données.
  4. 4. URLQu’est-ce qu’un document ? Sur un plan théorique, ce n’est pas une question simple.Pour l’instant, il me suffit d’utiliser une définition fonctionnelle - je définirai le document parses propriétés - qu’indexe-t-on quand on indexe un document web ?Ces propriétés sont celles qu’on utilise dans les systèmes d’information pour classer lesdocuments.
  5. 5. • Titre • Auteur • Contenu • Date • ISBNUn document standard : il a un titre, un auteur, une date de publication, un contenu délimité,et un identifiant unique - l’ISBN.Pour définir le document web de manière fonctionnelle, c’est généralement de cet identifiantunique qu’on part - l’URL.A une URL correspond une page, et cette page devient de fait notre unité documentaire.
  6. 6. L’auteur !Par exemple, un article de presse.Le web n’est plus une bibliothèque numérique, mais normalement il reste un certain nombrede contenus auxquels le modèle du document s’applique encore bien.
  7. 7. L’auteur !On a un auteur
  8. 8. L’auteur !Le titre, pas de problème.
  9. 9. On a bien une date. Bon, c’est la date de dernière modification, et non la date de premièrepublication.
  10. 10. Le contenu principal, pas de problème.
  11. 11. • Titre • Auteur • Contenu • Date • URLTout va bien. C’est globalement ce qui a émergé petit à petit dans les années 90 et début2000.
  12. 12. L’auteur !Sauf qu’il y a un grand nombre d’autres contenus sur cette page dont nos propriétés netiennent pas compte.Au premier chef desquelles les ‘réactions’ ou ‘commentaires’.
  13. 13. C’est embêtant : les commentaires sont sur la même page. Ils ont la même URL.Leurs auteurs sont-ils des co-auteurs de l’article ? Non. L’article est clairement séparé descommentaires, ne serait-ce que typographiquement.Leur auteur est différent, donc c’est un autre document, non ? Ils ont pourtant la même URL.Et puis, font-ils sens, privés du document d’origine ? Non, pas vraiment, puisqu’ils s’yréfèrent implicitement en permanence.
  14. 14. • Dernière modification • Contenu principal • Auteur principal • Titre principal • URLEn général, on résout ce problème en identifiant un contenu principal et en nettoyant le reste.On obtient quelque chose qui correspond relativement bien au modèle du documenttraditionnel.Je trouve que ça pose beaucoup de problèmes, notamment pour les commentaires.
  15. 15. Les commentaires représentent un volume de texte supérieur.Et, comme il s’agit de commentaires modérés, ce ne sont pas des dizaines ou des centainesde réaction d’une ligne ou deux.Il y a une certaine qualité de rédaction. Par exemple, ce commentaire des chiffres concrets,avec leur source, qui est un rapport officiel. L’article de départ citait un article du Parisien etle programme du parti socialiste.Où est le contenu principal ?On voit que même avec un contenu web censément proche d’un document traditionnel, onrencontre quelques problèmes de modélisation.
  16. 16. L’auteur principal ?On commence à avoir quelques soupçons. Allons plus loin.
  17. 17. Le contenu principal ?
  18. 18. A minima : un tweetLe premier mouvement c’est d’aller vers une unité indivisible.Un tweet a une date, un auteur, des bornes, une URL unique. Par contre, il est extrêmementcourt, et la majorité de son contenu sémantique - de sa valeur - est dans le lien, c’est-à-direailleurs.
  19. 19. ParenthèseSi on va par là, un like Facebook est sûrement enregistré avec le nom de celui qui a cliqué, lemoment précis où le clic est intervenu, et la chose qui a été ‘appréciée’ par l’utilisateur.Il y a clairement une intention.En dépit de l’effacement progressif de la différence entre les outils de création / édition et lesoutils de consultation de documents, je ne pense pas qu’un like Facebook soit un document.Par contre, pour un tweet, la question se pose.
  20. 20. Reprenons l’exemple de twitter. Voici un tweet standard, essentiellement tourné versl’extérieur.
  21. 21. Détaillons rapidement son contenu : ‘lagayascienza’ est le pseudonyme de la personne qui aécrit le tweet.
  22. 22. Ensuite, le texte du tweet.
  23. 23. Ensuite, un lien vers du contenu
  24. 24. Puis un hashtag, #Lego.Ce qui porte le sens, ici, c’est le lien. Le reste est mystérieux.Orgueil et Préjugés et Zombies est une réécriture parodique de Jane Austen, et on peut doncsupposer que le contenu du lien sera dans la même veine.
  25. 25. Le hashtag #Lego nous apprend qu’il sera question de Legos. Il permet de donner un indicesur le contenu du tweet, et de le contextualiser en le faisant apparaître dans les recherchesportant sur les LegosOn peut donc tagger le contenu extrêmement facilement.Le lien.
  26. 26. Si on suit le lien du tweet d’origine, on passe d’abord par un service de raccourcissementd’URL (en l’occurence is.gd), qui redirige vers la page suivante :
  27. 27. Il s’agit d’un post sur un weblog personnel. La photo représente une reconstitutionparodique du célèbre tableau Nighthawks d’Edward Hopper : les clients du bar du tableaud’origine subissent ici l’attaque de zombies semblables à ceux du film La Nuit des morts-vivants (Night of the Living- Dead) de George Romero. La scène est rendue au moyen defigurines et de briques Lego.On trouve en dessous deux liens.
  28. 28. Celui de droite, précédé du mot ‘via’, indique comment le blogueur a découvert l’existencede la photo. Il pointe donc vers un autre site, qui commente la photo.
  29. 29. Celui de gauche, intitulé ‘Nighthawks of the Living Dead’, sert de légende à la photo : ildonne son titre et pointe vers sa page d’origine.
  30. 30. Sous sa photo, l’auteur explique qu’il n’a fait que mener à son terme l’idée proposée par unautre membre de flickr, mais non terminée (WIP = work in progress). Si on suit le lien, onaboutit à la page suivante :
  31. 31. Ce dessin a été posté en 2008, et n’a jamais été terminé par son auteur d’origine.
  32. 32. Conclusion • Qui est l’auteur ? • Où commence le document ? • Où s’arrête-t-il ? • Comment l’enregistrer ?Dans l’espace physique, le document est linéaire, attribuable et borné.Dans ce contexte, il me paraît malaisé de répondre à des questions censément simples, tellesque : - qu’est-ce qui constitue le contenu ? - qu’est-ce qui est original ?- qui est l’auteur ? - où le document commence-t-il et où s’arrête-t-il ?Pourtant, cette incertitude ne gêne en rien les divers ‘auteurs’, ni encore moins lesspectateurs / consommateurs.Il n’y a pas de problème pratique. Il y a un problème conceptuel : le web fonctionne très bien.Les problèmes deviennent manifestes lorsque nous cherchons à l’enregistrer.
  33. 33. PagesPar rapport à l’intervention précédente, je serai très terre à terre.
  34. 34. Persistance ?Dans la doxa, le web est censé s’auto-réguler, et donc s’auto-préserver. Il incomberait àchaque site de mettre en place des moyens de persistance de ses pages.Le terme de ‘persistance’ est utilisé par les archives britanniques du web pour désigner leurdémarche consistant à préserver les pages des sites gouvernementaux, même inutilisées.Mais : c’est peu fiable, et totalement arbitraire. Un site peut disparaître du jour au lendemain,simplement parce que plus personne ne veut payer pour l’héberger.Ironie de la situation : ce que vous voyez à l’écran est la page actuelle du RTP-DocAuparavant, les gens enregistraient les pages sur leur propre ordinateur, pour tout un tas deraisons. Aujourd’hui, ce n’est plus le cas.
  35. 35. Archivage individuel • Préserver ce qui pourrait disparaître • Un archivage de ressources, et non de documents • Enregistrement d’une cristallisation à l’instant tA vieilli : c’est ce qu’on faisait dans les années 90.Aujourd’hui, on fait avec des favoris, voire avec des outils de bookmarking (type delicio.us).Montre bien la nature du net : ce qu’on enregistre va changer ou disparaître. On garde laressource ou un snapshot du document.Dans tous les cas, il faudra redocumentariser.
  36. 36. Par exemple, le 19 novembre dernier, Jean-François Copé a signé une tribune dans Slate surla question de l’illettrisme. Cette tribune a été publiée avec une faute à ‘illettrisme’ dans letitre.La faute a été corrigée près de deux heures après la publication, ce qui a laissé le temps àbeaucoup de gens, moi compris, de faire une capture d’écran.
  37. 37. Un exemple de démarche individuelle collectivisée : The Internet ArchaeologyNé en réaction à la fin de geocities en octobre 2009, qui a effectivement entraîné ladisparition de nombreux sites ‘antiques’Sont confrontés à des problématiques d’archivage (We ask that users provide at minimum the approximate date andsource of the image.)Il y a quelque chose de la société savante.
  38. 38. On peut débattre de la valeur esthétique des choses qui sont préservées, évidemment.Dans tous les cas, ce type d’archivage préserve les ressources, mais pas l’expérienceutilisateur.
  39. 39. ScreencastPour préserver l’expérience utilisateur, on en vient à faire du screencast.On a vu la semaine dernière les avantages et les inconvénients :- pas besoin d’émuler une expérience utilisateur avec un crawler, puisque c’est effectivementun utilisateur qui enregistre son parcours de navigation- mais : on garde la profondeur mais on perd l’interactivité.
  40. 40. Le web comme corpusA l’autre bout du spectre, on trouve l’idée d’utiliser le web comme un corpus.L’idée intéresse énormément les linguistes, vu le coût que représente la constitution d’uncorpus classique.Les démarches peuvent être très diverses : récupérer des n-grammes, constituer des corpusthématiques pour l’entraînement d’algos d’analyse syntaxique, etc.Il existe même des corpus constitués et tenus à jour automatiquement, à partir de flux RSS.Mais : textuel uniquement. Nettoyage très brutal. Aplatissement total et irrémédiable ducontenu de la page.Comment faire pour préserver la profondeur ?
  41. 41. Faut-il conserver toutes les données ?Wikipedia, qui conserve les données d’édition de toutes ses pages, toutes les versionssuccessives, etc.En septembre dernier, à l’occasion de la conférence dConstruct, James Bridle a décidéd’imprimer les 12.000 modifications effectuées sur la page Wikipedia « Iraq War », entredécembre 2004 et novembre 2009.Le résultat est plus ou moins de la taille d’une encyclopédie classique.Enfin ! Une archive qui fonctionne, complète !Imprimer ces données, leur donner une existence physique, permet de retrouver le sens desproportions et du ridicule.Si jamais on devait archiver sur papier, on ferait un tri. Pourquoi ne pas faire ce tri pour unearchive numérique ?
  42. 42. Facebook, conscient de l’ambiguité de sa position, et désireux de donner à ses utilisateursun os à ronger, redonne aux gens la place de l’archiviste en les incitant à téléchargerl’ensemble de leur activité à des fins d’archivage. L’annonce est venue début octobre dernier,au même moment que Facebook Places. Symboliquement, ils rendent aux personnes lecontrôle sur leurs données. Les gens se trouvent avec un export de BDD qui n’a strictement rien à voir avec leurexpérience de Facebook. Les données, une fois sorties de Facebook, n’ont pratiquement aucune valeur pourl’utilisateur. Facebook n’est pas la somme des données que les gens y déposent. Facebook est un service.
  43. 43. Conclusion • Le web n’est accessible qu’au travers de la médiation de la page • Enregistrer la page entraîne une perte d’information Chaque méthode enregistre l’un ou l’autre aspect du web, en fonction des objectifspoursuivis, mais aucune ne parvient à rendre compte de ce qu’est le web dans sonintégralité.L’objet digital (le web) est converti en analogique (page) pour que nous puissions y accéder,et c’est l’expérience produite par ces pages qu’on enregistre alors - essayer d’enregistrer leweb revient à filmer un écran. Par exemple, pour la recherche, on se trouve face à deux possibilités, dont aucune n’estsatisfaisante : - soit on utilise Google et le web lui-même, et on obtient des résultats impossibles àreproduire, puisqu’obtenus sur un corpus non délimité et figé - ce qui est quand mêmeennuyeux, sur un plan scientifique et sur un plan commercial. - soit on délimite un corpus d’étude, et on se trouve avec un objet d’étude qui a perdu lamajeure partie des propriétés du web. Et en tout cas il me semble qu’on ne dispose pas encore d’une méthode permettant derendre compte des aspects les plus originaux et les plus caractéristiques du web.
  44. 44. DonnéesOn voudrait accéder au web ‘en soi’, et c’est la promesse actuelle.
  45. 45. Le web sémantique ?Au cours de la décennie écoulée, la promesse du web sémantique a souvent été faite : dansl’avenir, les ontologies nous permettraient d’organiser tout le contenu dispersé sur le web, detransformer l’information en connaissance.
  46. 46. Le web syntaxique (pour l’instant au moins)Problème : le web sémantique est très coûteux à mettre en oeuvre, très contraignant, et ilreste donc pour l’instant réservé à des applications très précises et délimitées.Ca n’empêche pas le web de s’organiser.Google et la SEO ont forcé les choses à s’organiser.
  47. 47. Des liens dans le langageSur twitter, les contraintes techniques obligent à utiliser des URL comme des symboleslinguistiques.Le lien est la matérialisation de l’intention. Avec les liens et les tags, twitter a épuré
  48. 48. Du langage dans les liens Cliquez <a>ici</a> pour en savoir plus Plus d’informations sur <a>Laurent Gbagbo</a>Google a forcé les gens à expliciter le contenu de leurs liens, faisant de tout webmastercapable un annotateur - et transformant ainsi indirectement le texte plat du web en textecomplexe, relié, structuré.
  49. 49. Deep-linkingUn problème sans doute plus anecdotique pour l’instant, mais qui est appelé à devenir plusprégnant - les liens profonds.Youtube, maintenant le NYT et les blogs sous WordPress.
  50. 50. Le web de données Le web of data, ce sont des données, et des services destinés à explorer ces données. Exemple par excellence : twitter Ci-dessus, par exemple, We Read We Tweet, un mash-up des API du NY Times, de twitter,et de Google Maps. Les arcs relient la localisation d’un tweet avec les lieux évoqués dans lesarticles du NYT vers lesquels les tweets renvoient. Mais aussi Amazon, yelp, etc. Des services permettent d’accéder à ces ressources, créant des documents à la volée.
  51. 51. Sur le web of data, les internautes accèdent aux données grâce à des services et desapplications. Par exemple l’application de visualisation créée par les Français d’OWNI pour ladernière fuite de Wikileaks.
  52. 52. Un contenu, plusieurs sitesQu’est-ce qui rend un document unique s’il est reproduit à l’infini ? Qu’est-ce qui différenciele plagiat de la citation ? L’attribution ? Mais s’il n’y a pas d’auteur ? La répétition - citation / scraping. Comment distinguer ce qui est pertinent (citation,illustration, blog post, etc.) de ce qui ne l’est pas ? Pour un humain, c’est faisable. Pour une machine, il faudrait réussir à lier automatiquement contenu, auteur, et adresseweb (= ces trois données sont-elles cohérentes ?)
  53. 53. Public, collectif, privé • Privé = ce qui est sur notre ordinateur • Collectif = intranet, outils collaboratifs • Public = ce qui est accessible à tousEn 2006, l’équipe de recherche RTP-Doc définissait trois zones peuplées de documents numériques.Où en est-on, en 2010 ?
  54. 54. Privé ?Mais qu’est-ce qui est encore sur notre ordinateur ? Google Docs, Dropbox, synchrodesktop / laptop / iphone…Pour ma part, je panique si un fichier n’est pas encore synchronisé, et qu’il se trouve à unseul endroit. Si je peux encore lui donner une existence physique, je suis paniqué. Je saisqu’on peut me le voler, que je peux le perdre, qu’il peut être détruit.
  55. 55. Semi-public ?A première vue, Facebook semble plutôt être un changement quantitatif qu’un changementqualitatif. On est impressionné par l’échelle du changement.Mais si on peut être condamné en justice pour des propos tenus sur Facebook, alors on nestplus du tout dans le privé. Facebook est dans une position particulière et très délicate : ses centaines de millionsd’utilisateurs lui ont confié volontairement des données très personnelles, qui demeuraienttraditionnellement dans la sphère privée (photographies) ou restaient cantonnées au collectif.Ce sont précisément les données auxquelles les publicitaires n’ont pas accès, et qu’ilsessaient d’établir par des méthodes d’échantillonnage, d’études, etc. La position est délicate, parce que les utilisateurs s’inquiètent périodiquement de ce qu’ilsont laissés trop de données en possession de Facebook. Facebook ne peut pas donner auxutilisateurs ce qu’ils veulent, c’est-à-dire un espace réellement privé-collectif, plutôt quecollectif-public, parce que c’est comme ça que Facebook gagne son argent.
  56. 56. Public ?
  57. 57. Spécificités nationalesAutre facteur d’hétérogénéité - le web présente des spécificités nationales qui vont très au-delà de l’anecdotique. Le succès d’Orkut au Brésil. L’incapacité d’eBay à s’implanter en Asie -Yahoo Auctions au Japon, Tao Bao en Chine.En particulier, tous les pans du web asiatique (en particulier chinois et japonais) sontextrêmement isolés.Les Chinois doivent composer avec ‘the great firewall of China’. Leur web se développe trèsdifféremment du nôtre. Il y a des différences culturelles très fortes. Ils ont par exemple degigantesques forums sur lesquels ils échangent des normes ISO piratées en échange detravail scolaire. Ils essaient absolument d’empêcher les non-Chinois d’y participer - ilsveulent préserver ce qu’ils ont de l’attention des occidentaux - attention qui finirait, à forcede tractations diplomatiques, par déchaîner sur eux les foudres des autorités chinoises.
  58. 58. Gala-KeiLa barrière linguistique se double d’une barrière sociale : les japonais ont des sites trèspauvres techniquement afin de les rendre accessibles sur n’importe quel téléphone portable.Ces frontières techniques tendent à régresser (iPhone & iPad changent la donne au Japon, leweb chinois s’ouvre timidement), mais tout cela reste sans effet sur l’isolement culturel.
  59. 59. Des robots et des hommesEn attendant le web sémantique, il faut tout de même trouver des solutions pour organiser lamasse de contenus produits en permanence sur le web. Ce travail revient à des algorithmeset aux internautes.
  60. 60. Sur Google News, le rédac chef est l’algorithme. Il y a parfois des bizarreries (météo france),mais globalement ça marche pas mal.
  61. 61. Sur reddit, les visiteurs sont, individuellement et consciemment, leur propre rédac chef et,indirectement, ceux de tous les autres visiteurs du site. Le point intéressant est que peu d’entre eux prennent le temps de participer - ceux quiparticipent ont donc un poids très important.
  62. 62. Le Huffington Post se targue d’être le premier organe de presse publié uniquement sur leweb (pure player) à atteindre l’équilibre financier. Comment ont-ils fait ? Une partie de la réponse, au moins. Sur le Huffington Post, les visiteurs sont, collectivementet sans le savoir, les rédac chef. Leurs clics et le temps qu’ils passent sur chaque pagedéterminent le positionnement du contenu de la une, y compris les top stories. Les ajustements ont lieu en temps réel. Ils envisagent d’adapter le contenu de la une en fonction de la situation géographique. duvisiteur, aussi.
  63. 63. Content CuratorsL’autre moyen pour remettre du sens, le content curator.Le terme a fait florès dans la presse technologique ces derniers mois. Une bonne définition : «Un “Content Curator” estquelqu’un qui continuellement trouve, regroupe, organise et partage le contenu en ligne le plus pertinent sur un sujet spécifique.»Par exemple, je m’intéresse au cinéma des pays nordiques. Malheureusement, je ne parle aucune languescandinave, et les informations sont difficiles à trouver en français ou en anglais.
  64. 64. Quand Satoshi Kon est mort, de manière très subite, les détails ont émergé au compte-goutte : il est mort, il est mort du cancer, il est mort d’un cancer du pancréas, voilà où on enétait après 24h. Et puis est arrivé une longue lettre qu’il avait rédigé dans les jours précédantsa mort. C’est sa femme qui l’a postée, en japonais. Il a ensuite fallu qu’un blogueuse latraduise en anglais, sans la moindre autorisation, pour qu’elle se mette à circuler sur le netanglophone, avant d’atteindre la France par le biais de twitter.Pour que cette lettre parvienne jusqu’à moi, il aura fallu deux jours. C’est court, et c’est aussitrès long.
  65. 65. Conclusion • Le web est fragmentaire • Le circulation de l’information est sociale La • Le web est une barrière de corailCa me paraît extrêmement symptomatique de la situation. : techniquement, tout estconnecté. Le net est uniforme. En pratique, le net est fragmentaire. Les processus decirculation des informations sont (a) locaux et (b) sociaux, c’est-à-dire, dans l’ensemble,étonnamment archaïques. Reformulons : Des processus sociaux restent nécessaires pour accéder à l’information. Leweb n’est pas sémantique : il est pragmatique. C’est ce qui nous échappe pour l’instant lorsque nous essayons d’en faire des documents.Le « nettoyage » opéré par les outils de crawl (par ex. Ceux présentés ici par Exalead l’andernier) transforme une page web en document manipulable, car correspondant au modèleclassique du document. Il me semble que c’est une erreur si l’objectif est de comprendre leweb. Il me semble qu’en nettoyant, en se focalisant sur ce que nous reconnaissons comme« le contenu », on évacue ce qui fait que le web est le web. Enregistré, le document web est comme une branche de corail arrachée à la barrière - ilmeurt.

×