Slideshow transcript
Slide 1: Moteurs de recherche : pour en finir avec les idées reçues… ADBS Lorraine Véronique MESGUICH INFOTHEQUE POLE UNIVERSITAIRE LEONARD DE VINCI 12 octobre 2006
Slide 2: La recherche d’information sur Internet : un art plutôt qu’une science Abondance de l’information Hétérogénéité et fragmentation de l’information Coexistence de contenus structurés et non structurés Renouvellement continuel Multilinguisme Internet, outil documentaire ou outil de communication ?
Slide 3: Données « Question Etude factuelles réponse » complète « Grand Professionnel Enseignement public » final / Professionnel de l ’information Utilisateur Connaissance du sujet Texte Contenus Données bibliographiques éditoriaux intégral (payants)
Slide 4: Deux approches méthodologiques L’approche « mots clés » : recherche par mots clés sur texte intégral des pages web. La qualité de la recherche dépendra du choix des mots clés : nombre de mots clés, degré de précision, langue, combinaison avec opérateurs booléens... Inconvénient : le manque d’exhaustivité des moteurs et méta-moteurs (« web invisible ») L’approche « exploration des sources » : identifier les sources d’information les plus pertinentes par rapport à la requête, utiliser ensuite les outils de recherche intégrés à ces sources, l ’exploration de liens... Inconvénient : suppose une bonne connaissance des sources
Slide 5: Recherche d ’information sur Internet : se méfier des idées reçues Les moteurs de recherche, même les plus puissants, n ’indexent qu’une partie du web (notion de pages dynamiques, « web invisible ») Les moteurs de recherche n ’indexent pas le web en temps réel et ne sont pas à jour L ’outil n ’est pas tout : rechercher l ’information « à la source » : portails spécialisés, portails géographiques...
Slide 6: Les nouvelles tendances de la recherche d ’information sur le web Regroupement des acteurs. Simplification de la syntaxe « Clustering » (Exalead, Vivisimo…) Le web 2.0 ou « web social »: vu comme une plate-forme de services crée par les utilisateurs pour les utilisateurs Développement des portails spécialisés (accès au web invisible) Personnalisation (Yahoo, Google, Ujiko) Représentation cartographique des résultats (Kartoo ) Développement des flux RSS
Slide 7: 3 générations de moteurs de recherche 1ère génération 2ème génération 3ème génération (apparus en 95- (apparus en 98- (apparus à partir 96) 99) de 2001) Altavista, Lycos, Google, Exalead, Wisenut, Hotbot, Excite Fast/Alltheweb, Ask/Teoma, Ujiko, Yahoo Search Mozbot Technology, Northern Light « Vieillissement » Index important Simplicité de l’index. Simplicité d’utilisation Algorithmes de d’utilisation Nouvelles options : pertinence pas clustering, toujours précis personnalisation… Orientation « grand public »
Slide 8: Portrait robot d’un moteur idéal... Suggestion de mots clés, Qualité, quantité Recherche booléenne, options avancées mise à jour Contenus Interface d’interrogation Pertinence Classement Utilitaires et visualisation Résumé automatique Clustering Traduction Cartographie Surveillance automatique
Slide 9: Les principaux critères de pertinence des des mots-clés - Occurrence et densité moteurs - Présence dans l ’URL, dans le titre ou positionnement dans la page - Proximité et ordre des mots-clés - Taille et styles de polices - Présence dans les méta-données (meta- keyword, meta-description) Critères « off the page » : - Indice de popularité (page rank)
Slide 10: Moteurs de blogs Technorati : 56 millions de blogs « scrutés » Rech par mots-clés, ou par tags www.technorati.com Blogpulse : 35 millions de blogs Rech par mots-clés sophistiquée + tendances des termes les plus discutés (trend search) + conversation tracker. www.blogpulse.com Google Blog search : http://blogsearch.google.com depuis juin 2005 Rech par mots-clés + sur le titre du blog, du post, par auteur et par date. Voir aussi : Ice Rocket, Blogdigger, Daypop, Pubsub, Feedster (blogs.feedster.com), Waypath… Et pour les blogs francophones : Google (blogsearch.google.fr), Blog Ouaf, Allblog (www.all-blog.com), BlogDimension ou Retronimo
Slide 11: Les fils RSS (Really simple syndication, rich site summary) Flux de contenus gratuits en provenance de sites internet éditoriaux. Contiennent des titres des articles, et des liens hypertextes vers les articles. Ils permettent d’être alerté en permanence sur un domaine d’actualité ou sur les nouveautés apparaissant sur un site précis. Formats les plus utilisés : RSS 2.0 et Atom 1.0
Slide 12: Identifier des flux RSS Moteurs de recherche spécialisés RSS : Feedster, EasyRSS… Recherche avancée de Yahoo (choisir dans les formats RSS/XML) Exalead : cliquer sur l’onglet RSS dans la liste des réponses, à partir d’une recherche
Slide 13: Accéder aux fils RSS Intégration aux navigateurs Firefox (ajouter l’adresse du flux RSS dans le marque page) ou Safari. Utilisation d’un agrégateur en ligne (ex : Netvibes, Webwag, Feedreader…) www.netvibes.com Options personnalisées de Google ou Yahoo (mon Yahoo)
Slide 14: La navigation « sociale » La navigation "sociale" consiste à exploiter des adresses de sites ou de pages repérés par d'autres internautes d'une même "communauté" ou "réseau social Social bookmarking : del.icio.us « Folksonomie » : les internautes définissent eux- même les catégories de classement (tags) Yoono : moteur de recherche « collaboratif »
Slide 15: Web invisible Pages non localisables et/ou non indexables par les moteurs de recherche web Accéder au contenu de bases de données diversifiées Exploiter le contenu des pages « à identification », ou « confidentielles » Découvrir des pages peu ou mal indexées (isolées, ou d’un format « original ».
Slide 16: Le web invisible : comment y accéder Bonne connaissance des ressources. Veille sur un domaine (portails thématiques, listes de diffusion...) Répertoires de « web invisible » ex : www.completeplanet.com www.invisible-web.net Méta-moteurs spécialisés
Slide 17: Internet versus bases de données Intérêt d ’Internet : Intérêt des bases de . Multiplicité des sources données : d ’information . Fiabilité de l ’information . Interactivité . Données à valeur ajoutée . Couverture internationale . Forme structurée A utiliser pour : A utiliser pour : . Actualité immédiate . Archives de presse . Analyse sites des . Bilans entreprises entreprises . Etudes de marché . Infos sur pays . Fédérations professionnelles - portails spécialisés
Slide 18: Méta-moteurs : quand les utiliser Les méta-moteurs « on-line » (Ixquick, Profusion...) parfois trop aléatoires. Privilégier les unitermes. Les méta-moteurs « clients » (Copernic, Digimind Finder) Certains méta-moteurs (Jux2, Releton…) comparent les résultats des « grands moteurs»
Slide 19: Avantages et inconvénients des méta-moteurs 7 Permet de cumuler la puissance de plusieurs outils. 9N’intègre pas la syntaxe de chaque moteur, 8 Récupère un nombre limité de résultat par moteur (10 premiers résultats de chaque outil) 9 Réponses pas toujours pertinentes. Usage : pour une recherche large de premier niveau.
Slide 20: Une tendance : les méta- moteurs spécialisés Recherche simultanée sur des corpus spécialisés (web invisible). Mélange d’outil humain et automatique Les méta-moteurs spécialisés On line : exemple www.keljob.com Clients : Copernic, Digimind Finder Recherche sur des sites prédéfinis : www.goshme.com Des outils personnalisables : Rollyo www.rollyo.com
Slide 21: De nouveaux types d’annuaires Les annuaires « contributifs » ou « ouverts » ex : Open Directory www.dmoz.fr Les annuaires « professionnels » ex : Indexa www.indexa.fr/ Les annuaires de portails ex : Mediaveille www.mediaveille.com/outil/ outil.htmObjectif Grandes écoles www.objectifgrandesecoles.com
Slide 22: Les techniques spécifiques utilisables pour la recherche de sources (source : Armelle Thomas) Trouver des listes de liens Trouver des sites Trouver des « pointant » sur portails / sites une source déjà fédérateurs connue Trouver des sites « similaires » à une source connue
Slide 23: Identifier des portails spécialisés Attention à l’exhaustivité et à la mise à jour Répertoires ouverts (dmoz) Répertoires d’outils de recherche (enfin,, beaucoup, mediaveille, Objectifs grandes écoles...) Sites d’associations professionnelles, sites de référence Recherche par mots clés sur moteurs
Slide 24: L’évaluation des sites web Identifier l’origine d’un site (Alexa) Identifier la date de dernière mise à jour d’une page Remonter dans le temps : www.archive.org Identifier un nom de domaine : les annuaires WHOIS (www.indomco.com)
Slide 25: Les agents d ’alerte Signalent les modifications à l ’intérieur d ’une page Agents d ’alerte « on line » ex : www.infominder.com Agents d ’alerte « clients » ex : Kbcrawl www.kbcrawl.com Websitewatcher www.websitewatcher.com Parfois, aspirateurs et agents d ’alerte ex : Wysigot www.wysigot.com
Slide 26: KB Crawl: surveillance de pages dynamiques
Slide 27: Automatiser une requête récurrente avec Google Google newsalert : veille sur l ’actualité et les pages web www.google.fr/newsalerts Possibilité de transformer l’alerte e-mail en flux RSS Site GoogleAlert www.googlealert.com
Slide 28: Les 4 principaux modes de recherche d’information (source : URFIST) Modes de recherche Principe, démarche Type d’information Exemples d’outils intellectuelles concernée Recherche par Démarche Information Tables des matières navigation systématique, du structurée, organisée en Classifications arborescente général au particulier plan de classement documentaires Recherche par menus Annuaires web successifs Page d’accueil d’un site web Recherche par Réseau Information non Renvois dans une navigation Démarche associative, structurée encyclopédie hypertextuelle d’une notion à l’autre. Liens hypertexte Navigation dans un Portails réseau de noeuds et de liens Recherche par requête Index Information structurée Index des livres sur la description" du Démarche d’indexation en champs. Banques de données document de l’information Catalogues de Recherche par champs, bibliothèques logique booléenne Recherche par requête Texte Information non Moteurs de recherche sur le texte intégral Démarche d’analyse structurée Outils de TALN linguistique Outils linguistiques Recherche contextuelle
Slide 29: En guise de conclusion… les 10 règles d ’or Savoir questionner, choisir les bons mots-clés Savoir utiliser les outils de navigation et de recherche Savoir raisonner en termes de « sourcing » Savoir sélectionner les bons points de repère Savoir analyser Savoir passer des outils aux sources, et des sources aux outils Savoir se limiter dans le temps Savoir rester clair sur ses objectifs Savoir conjuguer recherche outils et navigation Savoir être agile et « rebondir »



Add a comment on Slide 1
If you have a SlideShare account, login to comment; else you can comment as a guest- Favorites & Groups
Showing 1-50 of 0 (more)