2010 BCU Google

981 views

Published on

1 Comment
4 Likes
Statistics
Notes
No Downloads
Views
Total views
981
On SlideShare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
9
Comments
1
Likes
4
Embeds 0
No embeds

No notes for slide

2010 BCU Google

  1. 1. Autour de Google Livres BCU – Dorigny / 11 mars 2010 Alain Jacquesson Vers.1.00
  2. 2. Deux pistes de réflexions 1. Les index de Google Livres 2. Les liens autour de Google Livres Google / Jacquesson / Mars 2010 2
  3. 3. Les index Google a indexé tout le Web visible – Tous les mots de toutes les pages de tout le Web… Un peu plus que le Web visible – Prêt du fichier RERO, par exemple C‘est sa qualité C‘est sa force Google / Jacquesson / Mars 2010 3
  4. 4. Mais…  Seuls ~15 % du savoir se trouvent sur le Web,  donc ~85 % du savoir se trouvent dans les livres  Philippe Colombet, responsable de Google Livres pour la France (Paris, BnF, janvier 2010) Google / Jacquesson / Mars 2010 4
  5. 5. De plus…  Google veut numériser tous les livres  Google's Goal: Digitize Every Book Ever Printed  Daniel Clancy, Chef du projet Livres chez Google (Déc. 2009) Google / Jacquesson / Mars 2010 5
  6. 6. Quelques chiffres…  RERO 5 millions (notices)  Google Livres 12 millions (livres)  BnF 14 millions (notices)  Bibliothèque du Congrès 32 millions (notices)  WorldCat d’OCLC 169 millions (notices) Google / Jacquesson / Mars 2010 6
  7. 7. Chiffres exacts d’une bibliothèque participant à Google Livres (Michigan) Après la numérisation de 1 million de livres (janvier 2008) 25,8 kilomètres linéaires 680 tonnes 361 millions de pages 70’000 millions d’occurrences de mots 428 Langues 135’000 Sujets (LCSH) Google / Jacquesson / Mars 2010 7
  8. 8. Extrapolations à court terme (En février 2010 Google a numérisé 12 millions de livres) Google / Jacquesson / Mars 2010 8
  9. 9. Ajouts aux index de Google Hypothèse : 15 millions de livres numérisés 1’050’000 millions Mots non-significatifs d’occurrences (1 billion) 80 % Mots significatifs 210’000 millions 20 % d’occurrences de mots Google / Jacquesson / Mars 2010 9
  10. 10. Loi de Zipf (Vers 1920) (Loi du moindre effort) La fréquence d’un mot est inversement proportionnelle à son rang Google / Jacquesson / Mars 2010 10
  11. 11. Distribution statistique des recherches sur Internet 50 % des recherches concernent les sites 30 % des recherches ordinaires (shopping, voyages, informations médicales, etc.) 20 % des mots rares, obscurs, spécialisés, exotiques, … ----------------- Loi de Pareto -------------------------- - Google / Jacquesson / Mars 2010 11
  12. 12. Qui utilisent ces mots rares ? Les chercheurs, les spécialistes Vocabulaire scientifique, produits, etc. Le Grand public Machines disparues, lieux, etc. Google / Jacquesson / Mars 2010 12
  13. 13. Distribution valable pour tous les types d’internautes  « Ordinary People with Extraordinary Tastes »  - pour le grand public  Vocabulaire scientifique hautement spécialisé  - pour les chercheurs Google / Jacquesson / Mars 2010 13
  14. 14. Distribution dite de la « Longue traîne » Google / Jacquesson / Mars 2010 14
  15. 15. Quels avantages ?  Google grâce à son projet Livres peut répondre à beaucoup plus de questions que ses concurrents  1 % de réponses supplémentaires  = 5 % de satisfaction supplémentaire  « Donc je reste sur Google pour la Fat Tail » Google / Jacquesson / Mars 2010 15
  16. 16. Critiques  Fat tail = forte concurrence  Long tail = faible concurrence  L'avantage de Google est injuste car ses concurrents ne peuvent pas avoir accès au même corpus ; son avance devient insurmontable  Pratiqué à cette échelle, Michael Lesk se demande si l'indexation relève encore du fair use Google / Jacquesson / Mars 2010 16
  17. 17. Saint Jean d’Acre  Google Livres Saint Jean Acre 457 livres  Library of Congress Acre (Israel) 64 références1  Library of Congress Acre (Syria) from old catalog 3 références  BnF Acre (Israël) 23 références  Sudoc Acre (Israël) 14 références  Rero Acre (Israël) 12 références  Rero Saint Jean d'Acre 1 référence  1Y compris des descriptions iconographiques Google / Jacquesson / Mars 2010 17
  18. 18. Mais…  Acre (Ville d’Israël / Syrie)  Acre (Province du Brésil)  Google ne fait pas de différence ! Google / Jacquesson / Mars 2010 18
  19. 19. Pierre ollaire / Stéatite  RERO partout pierre ollaire 42 références  RERO voc contrôlé pierre ollaire 28 références  RERO partout stéatite 9 références  RERO voc controlé stéatite 7 références  RERO.DOC pierre ollaire 1 réf. / 5 occurrences  RERO.DOC stéatite 1 réf. / 5 occurrences  SUDOC pierre ollaire 51 références  SUDOC stéatite 21 références  Google Livres pierre ollaire 902 livres  Google Livres stéatite 5’610 livres  Google pierre ollaire 22’000 références  Google stéatite 289’000 références Google / Jacquesson / Mars 2010 19
  20. 20. Et en sciences humaines… (1)  RERO partout constructivisme 396 références  RERO voc contrôlé constructivisme 277 références (Note 1)  RERO.DOC constructivisme 1 référence  SUDOC partout constructivisme 611 références  SUDOC voc contrôlé constructivisme 2 références  BnF partout constructivisme 355 références  BnF voc contrôlé constructivisme 59 références  Google Livres constructivisme 431 livres  Google Livres constructivisme 1’527 occurrences  Google constructivisme 139’000 liens  Note 1 : Avantage RERO qui fait la distinction « constructivisme (philosophie) » et « constructivisme (psychologie) » Google / Jacquesson / Mars 2010 20
  21. 21. Et en sciences humaines… (2)  RERO partout Faillibilisme 396 références  RERO voc contrôlé Faillibilisme 277 références  RERO.DOC Faillibilisme 1 référence  SUDOC partout Faillibilisme 611 références  SUDOC voc contrôlé Faillibilisme 2 références  BnF partout Faillibilisme 355 références  BnF voc contrôlé Faillibilisme 59 références  Google Livres Faillibilisme 295 livres  Google Livres Faillibilisme 531 occurrences  Google Faillibilisme 2’050 liens  Avantage RERO Google / Jacquesson / Mars 2010 21
  22. 22. Et en sciences humaines… (3)  RERO partout hypostase 19 références  RERO voc contrôlé hypostase 8 références  RERO.DOC hypostase 0 références  SUDOC partout hypostase 26 références  SUDOC voc contrôlé hypostase 2 références  BnF partout hypostase 23 références  BnF voc contrôlé hypostase 10 références  Google Livres hypostase 299 livres  Google Livres hypostase 3’210 occurrences  Google hypostase 127’000 liens (Note 1)  Avantage : Google  Note 1 : Wikipedia en premier, pas de publicité à placer ! Google / Jacquesson / Mars 2010 22
  23. 23. Pour être complet…  Google Livres constructivisme 431 livres  Google Livres constructivisme 80 livres affichage complet  Google Livres faillibilisme 295 livres  Google Livres faillibilisme 1 livre affichage complet  Google Livres hypostase 301 livres  Google Livres hypostase 365 livres affichage complet  Les derniers résultats sont incohérents : l’affichage complet doit être égal ou inférieur au premier total (recherche répétée plusieurs fois)  Interrogations faites le 6 mars 2010 Google / Jacquesson / Mars 2010 23
  24. 24. Evolution de la base de données Août 2009 Décembre 09 Mars 2010 Stendhal 5’547 4’490 5’220 Réponses Marie Henri Beyle 331 322 345 Réponses Beyle Marie Henri 332 333 351 Réponses Henri Beyle 402 363 412 Réponses Beyle Henri 401 365 412 Réponses Henry(sic) Beyle 24 23 45 Réponses Beyle Henry(sic) 24 23 45 Réponses Google / Jacquesson / Mars 2010 24
  25. 25. Conclusion provisoire  Avec la numérisation, l’indexation des livres est passée à un stade industriel  L’indexation est désormais « autre chose »  Les bibliothèques ne pourront pas échapper à un vaste débat sur le futur de l’indexation manuelle Google / Jacquesson / Mars 2010 25
  26. 26. Les liens autour de Google Livres  Les ouvrages numérisés dans Google Livres ne sont pas isolés  De nombreux liens y arrivent  De nombreux liens en sortent Google / Jacquesson / Mars 2010 26
  27. 27. Les liens venant du catalogue local Google Livres VD VD RERO Google / Jacquesson / Mars 2010 27
  28. 28. Informations redondantes WorldCat/OCLC 169 millions de notices 1,4 milliard de localisations Google Livres ? 12 millions de Livres numérisés RERO 5 millions de notices Google / Jacquesson / Mars 2010 28
  29. 29. Liens internes à Google Livres Google Livres Ouvrage consulté Google / Jacquesson / Mars 2010 29
  30. 30. Liens sur des informations propres à Google - 1 Google / Jacquesson / Mars 2010 30
  31. 31. Liens sur des informations propres à Google - 2 Liens venant de Google Scholar Google / Jacquesson / Mars 2010 31
  32. 32. Liens extérieurs à Google Livres (Internet Archive / 1.8 million de livres numérisés) Google / Jacquesson / Mars 2010 32
  33. 33. Liens commerciaux
  34. 34. Le futur des liens Vers des dictionnaires biographiques DHS Dictionnaire historique de la Suisse Numérisé à Oxford le 1/4/2008 Notices d’autorité Google Livres Catalogues LoC, Rero, Sudoc, … Google / Jacquesson / Mars 2010 34
  35. 35. Constitution de grands « blocs » d’informations contrôlées  Monographies, périodiques, brochures…  Catalogues, bibliographies, listes… – Bibliothèques, domaines spécialisés, enseignants…  Dictionnaires, répertoires, recueils, lexiques – Biographiques, géographiques, historiques, techniques, scientifiques, archéologiques, etc.  Données brutes – Astrophysiques, biologiques, géolocalisées, mais encore juridiques (lois, règlements, jurisprudence, etc.), culturelles, etc. Google / Jacquesson / Mars 2010 35
  36. 36. Mais encore des « blocs » non contrôlés Wiki (?) – Est-ce de l’information contrôlée ? Blogs – Grand public, spécialisés, etc. Commerce – eBay, Abebooks, etc. – (Informations volatiles) Google / Jacquesson / Mars 2010 36
  37. 37. Google / Jacquesson / Mars 2010 37
  38. 38. Nature des informations Gratuites – Officielles, contrôlées, libres, personnelles, … Payantes – Commerciales (Elsevier, Benezit…) – Jstor, HighWire, … Google / Jacquesson / Mars 2010 38
  39. 39. Dans tous les cas : des informations stables • Des adresses permanentes • PURL – Permanent URL • URN – Uniform Resource Name • DOI – Digital Object Identifier • Handle System (Ancres) • Des résolveurs de liens Google / Jacquesson / Mars 2010 39
  40. 40. Google et la gestion des liens  Un savoir faire exceptionnel sur lequel est construit initialement le moteur de recherche  Une avance énorme  Des essais dans tous les domaines Google / Jacquesson / Mars 2010 40
  41. 41. L’interconnexion des savoirs  Une nouvelle étape dans le domaine des bibliothèques numériques   Les bibliothèques devront travailler avec de nouveaux acteurs  Google / Jacquesson / Mars 2010 41
  42. 42. Google / Jacquesson / Mars 2010 42
  43. 43. Google / Jacquesson / Mars 2010 43
  44. 44. Les futurs moteurs de recherche…  Disposeront d’un contenu hors norme  utiliseront abondamment les liens  à travers des interfaces graphiques  et interactives Google / Jacquesson / Mars 2010 44
  45. 45. Exemple d’interface graphique de type « Fisheye » http://ontology.univ- savoie.fr/tricot/recherche/cs/realisations/demo/SystemFigureDesConnaissancesHumaines/ EyeTree/index.php (très peu de données) Google / Jacquesson / Mars 2010 45
  46. 46. Références complémentaires Anatomy of the Long Tail: Ordinary People with Extraordinary Tastes Goel, S.; Broder, A.; Gabrilovich, E.; Pang, B. WSDM (2010) http://research.yahoo.com/pub/3011 Google's Goal: Digitize Every Book Ever Printed Arlington, Virginia : Public Broadcasting Services (PBS) Newshour, Dec. 30, 2009 ; 8m35s http://www.pbs.org/newshour/bb/entertainment/july-dec09/google_12-30.html [En anglais (américain). Avec des interviews de Daniel Clancy (Chef de projet de Google Livres), Michael Keller (Directeur des Bibliothèques de Stanford), Garry Reback (Avocat de l'Open Book Alliance), etc. PBS est une télévision éducative indépendante]. Google / Jacquesson / Mars 2010 46
  47. 47. Coordonnées Alain Jacquesson 9 Route de Bellebouche 1246 Corsier (GE) / Suisse Tél 0(0 41) 22 751 20 63 Mail alain.jacquesson@gmail.com Google / Jacquesson / Mars 2010 47

×