Boostez vos recherches sur Internet
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Boostez vos recherches sur Internet

  • 7,743 views
Uploaded on

Support de l'intervention "Boostez vos recherches sur Internet", organisée par l'ADBS Lyon Rhone-Alpes et le secteur Veille de l'ADBS, le 15 avril 2011 à Lyon, et animée par Béatrice Foenix-Riou,......

Support de l'intervention "Boostez vos recherches sur Internet", organisée par l'ADBS Lyon Rhone-Alpes et le secteur Veille de l'ADBS, le 15 avril 2011 à Lyon, et animée par Béatrice Foenix-Riou, BFR Consultants

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
  • A lire l'article l'article de Jean-Paul Pinte sur ce sujet dans la revue 'Dossiers pour la science' de janvier-mars 2011 (p.100-106)

    Son blog : Http//cybercriminalite.wordpress.com
    Are you sure you want to
    Your message goes here
No Downloads

Views

Total Views
7,743
On Slideshare
6,830
From Embeds
913
Number of Embeds
16

Actions

Shares
Downloads
393
Comments
1
Likes
8

Embeds 913

http://blog.recherche-eveillee.com 632
http://laboratoire-multimedia.blogspot.com 96
http://www.scoop.it 94
http://brich59.canalblog.com 30
http://paper.li 23
http://www.recherche-eveillee.com 13
http://recherche-eveillee.blogspot.com 8
http://www.pearltrees.com 5
http://www.bibliobsession.net 5
http://s531528682.onlinehome.fr 1
http://drtoutilsveille.blogspot.fr 1
http://drtoutilsveille.blogspot.com 1
http://laboratoire-multimedia.blogspot.be 1
http://www.slideshare.net 1
http://eval.kbplatform.com 1
https://twitter.com 1

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Boostez vos recherches sur Internet Béatrice Foenix-Riou BFR Consultants www.bfr-consultants.com ADBS Lyon Rhône-Alpes & ADBS Secteur Veille 15 avril 2011
  • 2. Boostez ses recherches sur Internet En France, en mars 2011, 91,6 % des internautes utilisant un outil de recherche ont interrogé … Google ! Google, pourtant : -> ne couvre que partiellement le Web visible, -> et ignore totalement le Web invisible…1 © BFR Consultants - 2011
  • 3. Boostez ses recherches sur Internet WEB VISIBLE Tout ce qui peut être indexé par un moteur FONCTIONNEMENT DES MOTEURS Les moteurs (Google…) sont composés de trois éléments : • un robot : logiciel qui parcourt le Web de liens en liens et qui « copie » toutes les pages qu’il rencontre • un index : qui contient le texte des pages rencontrées par le robot • une interface Web2 © BFR Consultants - 2011
  • 4. Boostez ses recherches sur Internet WEB VISIBLE Tout ce qui peut être indexé par un moteur -> Croissance exponentielle ☛ Entre septembre 1998 et septembre 2005, l’index de Google a été multiplié par 1000 ! (de 24 millions à 24 milliards de pages !). Dernière communication sur la taille de son index en sept. 2005. ☛ Juillet 2008 : Cuil.com : 120 milliards de pages ☛ Juillet 2008 : Google annonce que son système a identifié (mais pas indexé) … mille milliards d’URLs ! ☛ Pour autant, la recherche ne se fait que sur une partie de l’index du moteur, et le nombre de résultats annoncé est toujours très largement surestimé ! (il suffit de tenter d’afficher « tous » les résultats – dans la limite des 1000 autorisés – pour prendre Google en défaut…)3 © BFR Consultants - 2011
  • 5. Boostez ses recherches sur Internet4 © BFR Consultants - 2011
  • 6. Boostez ses recherches sur Internet WEB INVISIBLE La partie immergée de l’iceberg Appartiennent au Web invisible : • Banques de données = pages dynamiques • Sites avec identification • Serveurs classiques • Formats spécifiques • [no robot] ☛ Gisement mal couvert par les moteurs ☛ Mais frontières de plus en plus « perméables »5 © BFR Consultants - 2011
  • 7. Boostez ses recherches sur Internet CONSEQUENCES Ce mode de fonctionnement des moteurs a plusieurs conséquences : -> aucun moteur n’a la même couverture (ni le même classement) ; -> la recherche se fait sur l’index des moteurs -> sur la copie des pages telles qu’elles étaient lorsqu’il les a copiées -> pour être indexé par un moteur, un site doit être référencé, ou posséder de nombreux « backlinks » -> pour optimiser sa recherche sur le Web visible et invisible, il faudra choisir avec soin la famille d’outils de recherche que l’on va interroger6 © BFR Consultants - 2011
  • 8. Les moteurs de recherche 1. LES MOTEURS DE RECHERCHE Google Yahoo! Bing.com Exalead etc7 © BFR Consultants - 2011
  • 9. Les moteurs de recherche PRINCIPES DE FORMULATION • L’utilisateur saisit un ou plusieurs mots-clés dans le formulaire • La requête est lancée sur le texte intégral des pages enregistrées par le moteur (contenues dans son index) • La page de résultats affiche la liste et les extraits des (copies de) pages contenant le(s) mot(s)-clé(s) (à la date de l’indexation) • Un clic sur le titre affiche la page aujourd’hui sur le Web8 © BFR Consultants - 2011
  • 10. Les moteurs de recherche REGLES • Utiliser des mots aussi PRECIS que possible, dans la langue des documents que l’on recherche • Utiliser « LES GUILLEMETS » pour rechercher une personnalité (« prénom nom »), un mot-composé ou une expression/citation (titre d’un ouvrage…) • Ecrire de préférence les mots AVEC leurs ACCENTS • Comparer les résultats au SINGULIER et au PLURIEL (ex.: « agent intelligent » OR « agents intelligents »)9 © BFR Consultants - 2011
  • 11. Les moteurs de recherche MAIS ATTENTION… • GUILLEMETS : signifie théoriquement « tel quel » (dans l’ordre) - il faudra donc utiliser les différentes variantes : exemple « prénom nom » OR « nom prénom » OR « initiale prénom nom » OR… - à utiliser uniquement lorsque les mots doivent être obligatoirement côte à côte : exemple : « bibliothèque numérique » oui ; « consommation de carburants » non… • ACCENTS : théoriquement non pris en compte par Google… - mais incohérences lorsque le mot est entre « guillemets » exemple : « a parts egales » : 295000 résultats ; « a parts égales » : 77 500 résultats ; « à parts égales » : 5 490 000 résultats ! - mais bug lorsque la recherche est limitée au titre : recherche alors sur l’occurrence exacte du mot (avec ou sans accents)10 © BFR Consultants - 2011
  • 12. Les moteurs de recherche MAIS ATTENTION… • TRONCATURE : - l’utilisateur ne peut exiger la troncature sur Google (contrairement à Exalead) ; - mais Google l’applique « quand il le juge utile » !!!, et pas seulement sur les pluriels/singuliers… exemple : bibliographie « jean racine » recherche aussi « biographie « jean racine » -> vérifier la façon dont Google a pris en compte les mots - utiliser le cas échéant le + (+bibliographie « jean racine ») - sur Google, le * fait office d’opérateur « de proximité » (« bibliothèque* numérique* » recherche « bibliothèque mondiale numérique »…)11 © BFR Consultants - 2011
  • 13. Les moteurs de recherche FONCTIONS AVANCEES • Si le nombre de réponses est trop important : limiter la recherche aux titres des pages (ex.: intitle:«développement durable» (OR intitle:«developpement durable») • Pour identifier des documents spécifiques (publications, chiffres…) : limiter à un type de fichier ex.: statistiques énergie filetype:pdf (ou doc, ppt, xls) • Pour restreindre à certains types de sites : limiter selon le nom de domaine Ex.: statistiques énergie site:gouv.fr (ou site:industrie.gouv.fr) • Si besoin : limiter à l’URL (veille inurl:univ) -> Ne pas hésiter à combiner les critères12 © BFR Consultants - 2011
  • 14. Les moteurs de recherche EXEMPLE : identifier rapidement quelques statistiques officielles sur la consommation d’énergie en France - consommation énergie : 13 800 000 pages sur Google - consommation énergie site:gouv.fr OR site:insee.fr : 360 000 pages - consommation énergie site:gouv.fr OR site:insee.fr filetype:doc OR filetype:pdf : 13 500 pages - consommation énergie site:gouv.fr OR site:insee.fr filetype:doc OR filetype:pdf 2011 OR 2010 OR 2009 : 8 920 pages - consommation intitle:énergie OR intitle:energie site:gouv.fr OR site:insee.fr filetype:doc OR filetype:pdf 2011 OR 2010 OR 2009 : 2160 pages13 © BFR Consultants - 2011
  • 15. Les moteurs de recherche ASTUCES • Fonctions En cache de Google : -> retrouver une page disparue -> repérer les extraits pertinents • Fonction Pages similaires (related:url sur Google) -> identifier les sites concurrents -> identifier d’autres sites de même type • Utiliser l’opérateur OR (en majuscules), pour étendre aux mots de forme voisine, aux synonymes… • Utiliser les symboles +mot pour rechercher un mot tel qu’il est écrit et -mot pour exclure un mot14 © BFR Consultants - 2011
  • 16. Les moteurs de recherche ASTUCES • Fonctions define: de Google (ex.: define:blog) -> trouver des définitions (mais il faut vérifier la source ; ex. define:ordinateur) • Fonction conversion de Google (ex.: 18 dollars en euro ; devise du Brésil en monnaie mexicaine) • Fonction numrange: de Google (ex.: « énergie renouvelable » 2015..2100) -> trouver des pages contenant un chiffre compris entre deux fourchettes ; utile pour données prospectives • opérateur AROUND(n) sur Google, NEAR/n sur Exalead (ex.: marché AROUND(5) tourisme : retrouve les pages contenant marché et tourisme à 5 mots maximum l’un de l’autre15 © BFR Consultants - 2011
  • 17. Les moteurs de recherche NOUVELLES FONCTIONNALITES Nouvelles fonctionnalités de Google, dans la colonne de gauche : - Sources : sélection par type de résultats (vidéos, actualités, blogs, forums) ; -> Date de publication (résultats récents, moins d’une heure, depuis 24h, depuis une semaine…) ou Période personnalisée : possibilité de retrouver des documents « publiés » à une date donnée ou une période donnée (équivalent daterange:date1-date2) - Informations connexes : Recherches associées ; Roue magique (concepts proches)… -> Chronologie : sélection chronologique de résultats les plus populaires - Affichage : avec images, résumé textuel + long… - Traduction des résultats16 © BFR Consultants - 2011
  • 18. Les moteurs de recherche IDENTIFIER DES PAGES DE LIENS Lorsque l’on souhaite identifier une liste de sites web sur un sujet, et que la requête amène trop de résultats -> rechercher spécifiquement des pages de liens Pages contenant le mot-clé + le mot liens (ou le mot sites) dans le titre ou dans l’URL Exemple : identifier une liste de ressources concernant les énergies renouvelables - « énergies renouvelables » : 2 190 000 pages sur Google - « énergies renouvelables » intitle:liens OR inurl:liens : 47 800 pages sur Google - intitle: « énergies renouvelables » OR intitle: « énergies renouvelables » intitle:liens OR inurl:liens : 1 130 pages17 © BFR Consultants - 2011
  • 19. Optimiser ses recherches sur Google18 © BFR Consultants - 2011
  • 20. Les moteurs de recherche GOOGLE TRADUCTION Pour savoir savoir ce qui se dit sur un sujet dans une langue différente…19 © BFR Consultants - 2011
  • 21. Les moteurs de recherche UN MONDE DOMINE PAR TROIS GEANTS Google (sept. 1998) (www.google.fr) • Juillet 2000 : 1% du trafic mondial. Est choisi par Yahoo! pour remplacer Inktomi • Septembre 2001 : 30% du trafic en France (1ere place) (Xiti) • Février 2011 : 91,4 % du trafic en France (Xiti) (64,9 % aux USA - Comscore) Yahoo! (avril 1994) (fr.search.yahoo.com ou www.yahoo.fr) • Septembre 2001 : 24% du trafic en France (1ere place) (Xiti) • Février 2011 : 1,4% du trafic en France (Xiti) (17,3 % aux USA) • Juillet 2009 : accord Yahoo/Microsoft. Yahoo! utilise la technologie Bing aux USA Microsoft (www.bing.com) • Septembre 2001 : 8% du trafic en France (5° place) (Xiti) • Février 2011 : 3,7 % du trafic en France (Xiti) (13,4% aux USA)20 © BFR Consultants - 2011
  • 22. Les moteurs de recherche DES OUTSIDERS A PRENDRE EN CONSIDERATION Exalead (2004) (www.exalead.fr) • développé par la société française Exalead • point fort : expressions connexes • point fort : critères de recherche sophistiqués 16 milliards de pages21 © BFR Consultants - 2011
  • 23. Les annuaires généralistes 2. LES ANNUAIRES GENERALISTES Dmoz22 © BFR Consultants - 2011
  • 24. Les annuaires généralistes FONCTIONNEMENT ☛ Description de sites Web (titre et résumé) répertoriés dans des rubriques et sous-rubriques. Travail humain d’indexation ☛ Recensent les sites grand public et professionnels, tous domaines confondus. Pas de sélection qualitative ☛ Part très importante de sites d’entreprises. ☛ Recherche par choix successifs ou par mots sur les catégories et les descriptifs des sites ☛ La page de résultats affiche la liste des sites répondant à la requête23 © BFR Consultants - 2011
  • 25. Les annuaires généralistes EVOLUTION ☛ En voie de disparition ☛ Exception : l’Open Directory (www.dmoz.org) - modèle économique différent24 © BFR Consultants - 2011
  • 26. Les annuaires généralistes UTILES POUR : • débroussailler un sujet en identifiant des SITES spécialisés • identifier des sites localisés dans un pays Exemple : repérer des sites dans le domaine de la pollution - pollution : 93 400 000 pages sur Google -> sur Dmoz.org : pollution dans World: Français: rubrique «World: Français: Sciences: Environnement: Pollution» : 31 sites et sous-rubriques comme Ozone, Pollution sonore…25 © BFR Consultants - 2011
  • 27. Les répertoires sélectifs 3. LES REPERTOIRES SELECTIFS Signets de la BnF Intute.ac.uk etc26 © BFR Consultants - 2011
  • 28. Les répertoires sélectifs LES REPERTOIRES SELECTIFS • Une offre ancienne, qui évolue peu • Réalisés souvent par des universités pour répondre aux questions des enseignants, chercheurs… • Recensent les sites professionnels à valeur ajoutée, dans les domaines couverts par l’université (nombreuses ressources du Web invisible). Sélection qualitative • Couverture internationale, majoritairement anglo-saxonne ☛ Utiles pour identifier les sites de référence.27 © BFR Consultants - 2011
  • 29. Les répertoires sélectifs UTILES POUR : identifier les sites de référence sur un sujet (couverture ± université/recherche) Exemple : identifier des banques de données sur le théâtre • Google : « banque de données » théâtre : 5 310 000 pages • Dmoz : «théâtre » : catégorie Top: World: Français: Regional: Europe: France: Arts et culture: Arts du spectacle: Théâtre : 417 sites mais pas bdd • Signets.bnf.fr : Arts: Arts du spectacle: Théâtre: Répertoires, bases de données et catalogues28 © BFR Consultants - 2011
  • 30. Les répertoires sélectifs QUELQUES REPERTOIRES SELECTIFS • Bubl Link : http://bubl.ac.uk/link  Infomine : http://infomine.ucr.edu/  Intute : www.intute.ac.uk  IPL2 : www.ipl.org  Signets de la BnF : http://signets.bnf.fr  Signets universités : www.signets-universites.fr Pour identifier les répertoires sélectifs : ☛ Signets de la BNF : signets.bnf.fr/ rubrique Outils Internet - choix Répertoires sélectifs29 © BFR Consultants - 2011
  • 31. Les outils thématiques 4. LES OUTILS THEMATIQUES Cismef etc30 © BFR Consultants - 2011
  • 32. Les outils thématiques LES OUTILS THEMATIQUES Recensement aussi complet que possible de sites sur un sujet ou dans un domaine particulier (chimie, agriculture, bois…). 2 niveaux : • Sites fédérateurs et pages de liens • Annuaires thématiques et « vortails »31 © BFR Consultants - 2011
  • 33. Les outils thématiques ☛ Les sites fédérateurs Listes de liens sur un sujet -> signets  Réalisés par un expert / passionné  Sélection qualitative ☛ Utiles pour démarrer une recherche sur une question précise ☛ Identifiables via les fonctions avancées des moteurs (veille inurl:liens OR intitle:liens)32 © BFR Consultants - 2011
  • 34. Les outils thématiques ☛ Les annuaires et portails thématiques Ex.: CTC, Cismef…  Approche verticale  Nombreuses informations sur un domaine : annuaire + actualités + forums  Arborescence plus homogène ☛ Utiles pour approfondir une recherche, ou pour identifier les professionnels d’un domaine33 © BFR Consultants - 2011
  • 35. Les outils thématiques QUELQUES ANNUAIRES ET PORTAILS THEMATIQUES  Chimie : www.chemindustry.com  Industrie : www.usinenouvelle.com/web  Médecine : www.cismef.org  Management : www.manager-go.com  Statistiques : www.nationmaster.com  Economie : www.helsinki.fi/WebEc ☛ Pour identifier un annuaire thématique • interroger un annuaire d’annuaires : www.lesannuaires.com www.objectifgrandesecoles.com/pro/secteurs/index.htm; www.indicateur.com • interroger un annuaire généraliste, avec « thème + annuaire » • interroger un moteur, avec « annuaire de … » (ou intitle:annuaire intitle:thème)34 © BFR Consultants - 2011
  • 36. Optimiser ses recherches sur Google CONCLUSIONS : • L’interrogation de Google reste un excellent point de départ pour démarrer une recherche – à la condition toutefois de bien formuler sa requête et de tirer parti des fonctions avancées du moteur – • Mais il est impératif d’utiliser : -> d’autres moteurs (Exalead..) pour compléter des résultats ; -> d’autres familles d’outils – notamment des annuaires généralistes, sélectifs ou thématiques – dès lors que l’on souhaite identifier une liste de sites (dans un pays, dans un domaine, etc), repérer des sources à valeur ajoutée, etc.35 © BFR Consultants - 2011
  • 37. POUR EN SAVOIR PLUS  Sites Web + blogs – www.abondance.com – www.outilsfroids.net… – http://blog.recherche-eveillee.com  Lettre bimestrielle NETSOURCES (articles de plus d’un an en accès libre sur www.bases-publications.com)  « Recherche éveillée sur Internet : mode d’emploi - Outils et méthodes pour explorer le Web (visible, invisible, social, temps réel) » Béatrice Foenix-Riou Co-édité par Bases Publications et Lavoisier, avril 201136 © BFR Consultants - 2011
  • 38. Pour tous renseignements Béatrice Foenix-Riou BFR Consultants www.bfr-consultants.com contact [at] bfr-consultants [point] com37 © BFR Consultants - 2011