Your SlideShare is downloading. ×
0
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Bnf 15 Dec Véronique Mesguich
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Bnf 15 Dec Véronique Mesguich

1,747

Published on

Published in: Business
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,747
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
0
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. PANORAMA DES OUTILS DE RECHERCHE WEB Journée d’étude Internet en Bibliothèque - ABF Véronique MESGUICH INFOTHEQUE POLE UNIVERSITAIRE LEONARD DE VINCI 15 décembre 2009 www.devinci.fr/info [email_address]
  • 2. Difficultés liées à la recherche d ’informations sur Internet
    • Abondance de l’information
    • Hétérogénéité
    • Fragmentation
    • Manque de structuration
    • Renouvellement continuel
    • Multilinguisme
    • Manque de fiabilité
    • La nature même d’Internet
    • Des besoins fort variés
    • Une illusion d’exhaustivité…
  • 3. Les différentes générations de moteurs  
  • 4. Outils de recherche : tendances…
    • Regroupement des acteurs. Simplification de la syntaxe
    • Personnalisation (Google Custom Search, Yahoo BOSS, Swicki, …)
    • Développement des outils de partage (web social ou « 2.0 » : bookmarking social, wikis, réseaux sociaux, moteurs collaboratifs…)
    • Clustering et catégorisation automatique ( Exalead, Vivisimo…)
    • Diffusion de l’information via des flux (formats RSS ou Atom)
    • Moteurs multimédias ( Truveo, Blinkx, Voxalead…)
  • 5. Tendances…
    • Représentation cartographique des résultats ( Touchgraph, Social Computing, Kartoo, Exalead Constellations,Pikko… )
    • Développement des moteurs verticaux ou spécialisés ( Scirus, Google Scholar, Medworm…)
    • Interrogation en langage naturel (True Knowledge, Powerset)
    • Recherche multilingue (Google Translated search)
    • Recherche « mobile » et « temps réel » ( Twitter, Friendfeed)
    • Recherche de données factuelles ( Wolfram Alpha, Google Squared )
    • Moteurs spécialisés par pays ( Yandex pour la Russie, Baidu pour la Chine..)
  • 6. Recherche multimédia
    • Nombreux moteurs audio et video : Blinkx, Truveo, Singingfish, Midomi (reconnaissance vocale…)
    • Technologies « Speech to text » Exalead : lancement de Voxalead Google Audio Indexing
    • Recherche d’image par similarité (Google Similar Images, Like, Cydral)
  • 7. Recherche d ’information sur Internet : se méfier des idées reçues
    • Les moteurs de recherche, même les plus puissants, n ’indexent qu’une partie du web (notion de pages dynamiques, « web invisible »)
    • Les moteurs de recherche n ’indexent pas le web en temps réel et ne sont pas à jour
    • L ’outil n ’est pas tout : rechercher l ’information « à la source » : portails spécialisés, portails géographiques...
  • 8. Le fonctionnement des moteurs
    • Robot d’exploration : collecte le contenu de milliard de pages web dans une base de données structurée en champs (titre, URL, liens…)
    • Indexeur : indexation automatique des pages collectées par le robot. L’index contient tous les mots significatifs des pages
    • Interface web : destinée à l’usager, gère l’interrogation . Formulaire de recherche et pages de consultation des résultats
    • Algorithme de pertinence : tri informatique complexe qui permet le classement des résultats
  • 9. Les principaux critères de pertinence des moteurs
    • - Occurrence et densité des mots-clés - Présence dans l ’URL, dans le titre ou positionnement dans la page - Proximité et ordre des mots-clés - Taille et styles de polices - Présence dans les méta-données (meta-keywords, meta-description) balise metakeyword désormais obsolète sur Google, Yahoo et Bing
    • Critères « off the page » : - Indice de popularité (page rank…jusqu’à quand?)
  • 10. Portrait robot d’un moteur idéal... Pertinence Interface d’interrogation Utilitaires Classement et visualisation Contenus Qualité, quantité mise à jour, texte & multimedias Suggestion de mots clés, Recherche booléenne, options avancées Recherche multilingue Clustering Cartographie Résumé automatique Traduction Surveillance automatique
  • 11. Add-ons Firefox pour la recherche
    • Customize Google : ajoute des informations supplémentaires et supprime les informations non-demandées (publicités…) https://addons.mozilla.org/fr/firefox/addon/74
    • Aspator : recherche de brevets https://addons.mozilla.org/fr/firefox/addon/3142
    • Domains detail : infos sur l’origine des sites (IP, whois…) https://addons.mozilla.org/fr/firefox/addon/2166
    • Erreur404 : retrouver des pages disparues https://addons.mozilla.org/fr/firefox/addon/4693
  • 12. La prédominance de Google
    • Plus de 90 % de part de marché en France début 2009 (source : Xiti)
    • 113 milliards de requêtes ont été faites dans le monde sur les moteurs de recherche en juillet 2009, dont 76 milliards pour le seul Google (source : Comscore).
    • Les raisons du décollage : rapidité, pertinence (algorithme du page rank), simplicité (opérateur ET par défaut), orientation « pur moteur », marketing viral…
    • Les raisons du maintien à la première place : diversification, liens sponsorisés (Adwords), bons investissements, culture d’entreprise originale… Cf le Google Labs !
  • 13. Outil de recherche personnalisé: Google Custom Search www.google.com/coop/cse Description du moteur Saisir les adresses des sites ou pages (un par ligne)
  • 14. Moteurs spécialisés (ou verticaux)
    • Alternative à la recherche généraliste
    • Secteurs les plus représentés : . Secteurs grand public (immobilier, tourisme…) . Secteurs transversaux (santé, finance, informatique…)
    • Exemples: searchfinance.com, Medworm (santé), Scirus (sciences…)
    • Avantages : moins de sources, plus de pertinence…
  • 15. Méta-moteurs :quand les utiliser
    • Les méta-moteurs « on-line » (Ixquick, Kartoo...) sont parfois trop aléatoires. De nombreux méta-moteurs en ligne ont disparu ou ont évolué vers d ’autres fonctions
    • A utiliser pour des termes « rares » ou au contraire, pour avoir un premier aperçu des résultats pour des termes plus généraux
    • Les méta-moteurs comparateurs de résultats (Allplus, Jux2, Releton…)
    • Copernic : un méta-moteur « star » dans les années 2000, mais qui n’a plus évolué depuis
  • 16. Les annuaires généralistes: le déclin
    • Sélection « manuelle » de sites classés par thèmes et sous thèmes
    • Les annuaires « contributifs » ou « ouverts » ex : Open Directory www.dmoz.org
    • Les annuaires « professionnels » ex : Indexa http://www.indexa.fr/
    • Les guides ou répertoires de signets (BNF, BPI…)
    • Le renouveau des annuaires par le bookmarking social ?
  • 17. L’évaluation des sites web
    • Identifier l’origine d’un site (Alexa)
    • Identifier la date de dernière mise à jour d’une page
    • Remonter dans le temps : www.archive.org
    • Identifier un nom de domaine ( www. indom.com)
  • 18. L’évolution de la notion de web invisible
    • Des pages non localisables et non indexables par les moteurs
    • Raisons techniques : pages dynamiques, caractéristiques techniques…
    • Volonté des producteurs d’information : pages accessibles sur abonnement
    • Quelle est la taille du web invisible ?
  • 19.
    • Approche mots-clés : du mot à la « chose »
    • Recherche par mots-clés sur le texte intégral des pages web par moteurs ou méta-moteurs
    • La plus répandue…..
    • Impose, soit en amont un travail sur les mots-clés pour bien préciser sa recherche, soit l’utilisation « en aval » de l’environnement terminologique trouvé dans les premières réponses pertinentes.
    • Qualité inégale, succès plus facile sur des recherches « factuelles »…
    • Approche « sources et exploration »
    • Identification des sources d’information les plus pertinentes par rapport à la requête, chercher sur ou à partir de ces sources
    • Beaucoup moins répandue, implique souvent une réflexion préalable dont la majorité des internautes veut se passer (passer au concept..) ‏
    • Pour des recherches pros, indispensables à mener en parallèle de l’approche mots-clés
  • 20. Recherche d’experts
    • Recherche sur les sites universitaires (Google Scholar, extraction de noms) ‏
    • Recherche sur les blogs
    • Recherche dans les réseaux sociaux via Google Ex : geosciences site:www.linkedin.com
    • Recherche de thèses : Dissertation abstracts (monde) ou Sudoc (France) ‏
    • Limitation aux documents PPT dans la recherche avancée de Google ou recherche de documents Powerpoint via www.slideshare.net
    • Moteurs de recherches de personnes www.123people.com www.zoominfo.com www.pipl.com
  • 21. Outils de recherche de blogs
    • La blogosphère ayant tendance à se banaliser, les moteurs de recherche de blogs n’existent plus forcément en tant que tel
    • Moteurs de recherche : . Technorati (recherche par mot clé, par tag ou par catégories sur plus de 80 millions de blogs) . Blogpulse (recherche par mot clé, url ou « trends » sur près de 50 millions de blogs . Google blog Search…ou Google Web
    • Recherche dans la blogosphère francophone : Wikio www.wikio.fr (180.000 blogs et médias) Bligg www.bligg.com
  • 22. Vers le web sémantique…
    • Objectif : Donner « du sens »au web, en traitant non pas du texte en langage naturel mais des informations formalisés .
    • Principes techniques : langage XML, méta-données, modèle RDF, ontologies
    • Une ontologie est un vocabulaire contrôlé qui décrit des situations. Il est utilisé pour des traitements automatiques
    • Une ontologie est formée de concepts et de relations, les deux sont organisés en une structure hiérarchique, des règles d'inférence liant les concepts et ou les relations, et une définition du domaine de chacune des relations
    Est-ce qu’il faut vraiment qu’un nom veuille dire quelque chose ? Alice à travers le miroir, chap.6
  • 23. Et demain ?
  • 24. Merci de votre attention [email_address]

×