L’Archivage du Web          Julien Masanès   Internet Memory Foundation        Collège de France           Mars 2012      ...
Introduction•   Centralité du web, application de publication de    l’internet•   Premier artefact culturel, source pour l...
L’objet   3
Mesure•   infini (génération à la demande)•   cela dépend de l’outil de mesure (crawler)                     4
Mesure•   555 millions de sites web (Décembre 2011).    200 millions nouveaux sites en 2011•   152 millions blogs (2010 Bl...
Mesurehttp://www.worldwidewebsize.com/               6
Mesure1 million livres/an     (Unesco)imprimé : 109 pages web : 1015 pages   x 1 million       7
Structuré ou non ?•   HTML URLs parsé 	 1,486,186,868•   Domains with Triples	65,408,946•   URLs with Triples 	           ...
Un système de publication actif• Web Information Systems• Contrôle par le producteur• Publication continue (y compris page...
Le Web comme artefact culturel• Multimédia, convergence de tous les types de  contenus numériques• Hypertexte actionnable•...
Cardinalité• Différent selon les institutions (musées, archives,  bibliothèques)• Cardinalité des incunables     – 20 mill...
La cardinalité ‘paradoxale’ du Web• Un nombre virtuellement infini de copies• Mais une très forte dépendance à un serveur u...
Capture et cohérence• extension temporelle incompressible des capture• en contradiction avec la publication permanente• ri...
Legend:                                        :: html                      :: coherent                                :: ...
L’archive    15
Une mémoire de la toile•   Echantillonnage automatique raisonné et documenté•   Saisie d’un état•   Construction de séries...
Une infrastructure pour la science• rôle dans la construction du savoir   • quel sera l’équivalent des bibliothèque et des...
Figure 5: Evolution of search engines for mobile phone internet services           M.Toyoda et M. Kitsuregawa, A system fo...
Quel régime d’archive ?•   ce que l’on garde ce que l’on ne garde pas (valeur) ?•   droit à l’oubli ?•   vie privée•   acc...
Julien MasanèsInternet Memory Foundation   internetmemory.org                 Aux archivistes du Web            20
Upcoming SlideShare
Loading in …5
×

L'archivage du Web, présentation college de france

486 views
441 views

Published on

Présentation au séminaire de Serge Abiteboul au collège de France sur l'archivage web (mars 2012)

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
486
On SlideShare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
6
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

L'archivage du Web, présentation college de france

  1. 1. L’Archivage du Web Julien Masanès Internet Memory Foundation Collège de France Mars 2012 1
  2. 2. Introduction• Centralité du web, application de publication de l’internet• Premier artefact culturel, source pour l’histoire et la science du future• Ce que la problématique de sa préservation nous apprend de ce média 2
  3. 3. L’objet 3
  4. 4. Mesure• infini (génération à la demande)• cela dépend de l’outil de mesure (crawler) 4
  5. 5. Mesure• 555 millions de sites web (Décembre 2011). 200 millions nouveaux sites en 2011• 152 millions blogs (2010 BlogPulse).• 250 millions tweets par jour sur Twitter en (Oct-2011)• 30 milliards d’éléments de contenus (liens, notes, photos, etc.) partagés sur Facebook chaque mois (2010) 5
  6. 6. Mesurehttp://www.worldwidewebsize.com/ 6
  7. 7. Mesure1 million livres/an (Unesco)imprimé : 109 pages web : 1015 pages x 1 million 7
  8. 8. Structuré ou non ?• HTML URLs parsé 1,486,186,868• Domains with Triples 65,408,946• URLs with Triples 302,809,140• Typed Entities 1,222,563,749• Triples 3,294,248,652 Web Data Commons, http://webdatacommons.org/ 8
  9. 9. Un système de publication actif• Web Information Systems• Contrôle par le producteur• Publication continue (y compris pages anciennes ‘archivées’)• Frontières de l’objet visé sont flou (un site? ) Conserver implique exactement l’opposé 9
  10. 10. Le Web comme artefact culturel• Multimédia, convergence de tous les types de contenus numériques• Hypertexte actionnable• Edité globalement par des centaines de millions de personnesConservation sans le filtrage traditionnel de l’édition 10
  11. 11. Cardinalité• Différent selon les institutions (musées, archives, bibliothèques)• Cardinalité des incunables – 20 millions de livres – 30 000 éditions – 650• Une cardinalité élevée donne deux avantages pour la conservation : la redondance et le temps 11
  12. 12. La cardinalité ‘paradoxale’ du Web• Un nombre virtuellement infini de copies• Mais une très forte dépendance à un serveur unique 12
  13. 13. Capture et cohérence• extension temporelle incompressible des capture• en contradiction avec la publication permanente• risque d’incohérence temporelle au sein même de l’archive 13
  14. 14. Legend: :: html :: coherent :: image, video, audio :: content incoherent (text only) :: dns :: link structure incoherent :: javascript, flash, css, rdf :: content completely removed :: pdf, zip, ps other binary data (without multimedia) Color :: Coherence Status Shape :: MIME Type Figure 4: Coherence defect visualization of a single crawl-recrawl pair of mpi-inf.mpg.de by visone Spaniol, A. Mazeika, D. Denev and G.Weikum: Catch me if you can:Visual Analysis of Coherence Defects in Web ArchivingProceedings of the 9th International Web Archiving Workshop (IWAW 2009), in conjunction with the ECDL 2009 14
  15. 15. L’archive 15
  16. 16. Une mémoire de la toile• Echantillonnage automatique raisonné et documenté• Saisie d’un état• Construction de séries temporelles pertinentes• Inclusion dans l’internet 16
  17. 17. Une infrastructure pour la science• rôle dans la construction du savoir • quel sera l’équivalent des bibliothèque et des archives pour le web ?• CERN de la Web Science• Inclusion dans l’internet Internet Archive: http://archive.org/ Internet Memory : http://internetmemory.org IIPC : http://netpreserve.org/ Bibliothèque Nationale de France : http://www.bnf.fr 17
  18. 18. Figure 5: Evolution of search engines for mobile phone internet services M.Toyoda et M. Kitsuregawa, A system for visualizing and analyzing the evolution of the web with a time series of graphs, Salzburg, Austria: ACM Press New York, NY, USA, 2005.   i k k i kis positioned almost at the same place over time. When c2 Ct is merged into a main line (Ct , Ct+1 ), when Ct = Ct i k ibecomes greater than 1, the strictness of synchronization is and Ct ∩ Ct+1 = ∅. In this case, Ct is attracted to the main
  19. 19. Quel régime d’archive ?• ce que l’on garde ce que l’on ne garde pas (valeur) ?• droit à l’oubli ?• vie privée• accès (humain/machines)• ... 19
  20. 20. Julien MasanèsInternet Memory Foundation internetmemory.org Aux archivistes du Web 20

×