0
Approfondissement des moteurs de recherche : “SORTIR” DE GOOGLE ... <ul><ul><li>Stage URFIST de Rennes </li></ul></ul><ul>...
PRESENTATION du stage <ul><li>Intro. : pourquoi sortir de Google ?  </li></ul><ul><li>1/ Des ressources pour se former et ...
En introduction  <ul><li>4 raisons (au moins !) de sortir de Google :   </li></ul><ul><ul><li>Briser le monopole « googlée...
1/ Des ressources pour se former et s’informer <ul><li>Difficultés de la veille sur les outils de recherche : </li></ul><u...
2.1 Fonctionnement des moteurs de recherche Source :  R. Viseur, CETIC
2.1 Fonctionnement… :  la collecte des données <ul><li>Le  crawl  = parcours de la toile par les moteurs pour aspirer les ...
2.1 Fonctionnement…  :  l’indexation des données <ul><li>Deux grandes méthodes d'analyse dans l'indexation automatisée  : ...
2.1 Fonctionnement…  :  l’indexation des données <ul><li>Principale méthode d’indexation automatisée :  traitement statist...
2.1 Fonctionnement… :  la gestion des requêtes et des résultats <ul><li>Partie visible du moteur de recherche ; trois gran...
2.1 Fonctionnement… : la gestion des requêtes <ul><li>Fonction la plus répandue : nombreuses possibilités de filtrage  </l...
2.1 Fonctionnement… : la gestion des résultats <ul><li>Enjeux du «  relevance ranking  », du classement des résultats selo...
2.1 Fonctionnement…  la gestion des résultats  :  l’indice de pertinence <ul><li>Principes : </li></ul><ul><ul><li>classem...
2.1 Fonctionnement…  la gestion des résultats  :  l’indice de popularité <ul><li>Principes, origines :   </li></ul><ul><ul...
2.1 Fonctionnement…  la gestion des résultats  : la  catégorisation automatique <ul><li>Technologies plus complexes ; doma...
2.2 Typologies des moteurs de recherche <ul><li>Difficultés des typologies </li></ul><ul><li>Quatre grandes catégories de ...
2.2 Typologies des moteurs de recherche : l’offre des ressources <ul><li>Critère :  type de ressources collectées  </li></...
2.2 Typologies… L’offre des ressources : diversité des spécialisations <ul><li>Choix retenu pour l’exploration :  </li></u...
2.2 Typologies… : l’implication des internautes  <ul><li>Difficultés de caractérisation du critère, très récent :  </li></...
2.2 Typologies… : l’indexation des données <ul><li>Critère :  mode d’indexation des données </li></ul><ul><li>Typologie po...
2.2 Typologies… :  la présentation des résultats <ul><li>Innovations les plus spectaculaires à venir : les interfaces, la ...
3/ Explorations des différentes catégories de moteurs <ul><li>Des moteurs pour trouver d’autres moteurs  </li></ul><ul><li...
3.1 Exploration des moteurs :  Les moteurs généralistes  Exalead <ul><ul><li>Créé par François Bourdoncle (ingénieur de l’...
3.1 Exploration des moteurs :  Les moteurs généralistes  Exalead <ul><ul><li>Un moteur innovant dans le traitement et la p...
3.1 Exploration des moteurs :  Les moteurs généralistes  Exalead <ul><li>Récentes évolutions  :  </li></ul><ul><ul><ul><ul...
3.1 Exploration des moteurs :  Les moteurs généralistes  Yahoo Search <ul><li>Moteur né en février 2004, après l’annuaire ...
3.1 Exploration des moteurs :  Les moteurs généralistes  Yahoo Search <ul><li>Quelques développements récents de Yahoo : <...
3.2 Moteurs «participatifs » : moteurs personnalisables <ul><li>Des moteurs “sur mesure” / recherche verticale </li></ul><...
3.2 Moteurs «participatifs » : moteurs « contributifs » <ul><li>Principes :  </li></ul><ul><ul><li>Enrichissement de la re...
3.2 Moteurs «participatifs » : moteurs « sociaux » et collaboratifs <ul><li>Exemple de  Baagz  :  </li></ul><ul><ul><li>La...
3.3 Moteurs spécialisés : selon les ressources internet   <ul><li>Pour trouver ou chercher dans :  </li></ul><ul><li>Des l...
3.3 Moteurs spécialisés : selon la nature du contenu   <ul><li>Pour trouver :  </li></ul><ul><li>Des informations d’actual...
3.3 Moteurs spécialisés : selon la nature du « média »   <ul><li>Pour trouver :   </li></ul><ul><li>Des  images : </li></u...
3.4 Typologie des moteurs selon l’indexation <ul><li>Importance de la question de l’indexation sur le web </li></ul><ul><l...
3.4 Typologie des moteurs selon l’indexation   :   l’indexation morphologique <ul><li>Niveau d ’analyse :  </li></ul><ul><...
3.4 Typologie des moteurs selon l’indexation   :   l’indexation lexicale <ul><li>Objet : prise en compte des variations mo...
3.4 Typologie des moteurs selon l’indexation   :   l’indexation syntaxique <ul><li>Niveau d’analyse :   </li></ul><ul><ul>...
3.4 Typologie des moteurs selon l’indexation   :   l’indexation sémantique <ul><li>Niveau d ’analyse :   </li></ul><ul><ul...
3.5 Présentation des résultats : moteurs visuels, cartographiques <ul><li>Moteurs visuels :   </li></ul><ul><ul><li>Search...
Upcoming SlideShare
Loading in...5
×

Moteurs de recherche : sortir de Google

7,757

Published on

Published in: Technology
0 Comments
7 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
7,757
On Slideshare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
202
Comments
0
Likes
7
Embeds 0
No embeds

No notes for slide
  • Transcript of "Moteurs de recherche : sortir de Google"

    1. 1. Approfondissement des moteurs de recherche : “SORTIR” DE GOOGLE ... <ul><ul><li>Stage URFIST de Rennes </li></ul></ul><ul><ul><li>18 novembre 2008 </li></ul></ul><ul><ul><li>Marie-Laure Malingre </li></ul></ul><ul><ul><li>Alexandre Serres </li></ul></ul>
    2. 2. PRESENTATION du stage <ul><li>Intro. : pourquoi sortir de Google ? </li></ul><ul><li>1/ Des ressources pour se former et s’informer </li></ul><ul><li>2/ Fonctionnement et typologies des moteurs de recherche </li></ul><ul><li>3/ Explorations de différents types de moteurs </li></ul>
    3. 3. En introduction <ul><li>4 raisons (au moins !) de sortir de Google : </li></ul><ul><ul><li>Briser le monopole « googléen » : </li></ul></ul><ul><ul><ul><li>Cf le Baromètre de S2M </li></ul></ul></ul><ul><ul><li>Résister à la « googlisation » des usages : </li></ul></ul><ul><ul><ul><li>Nécessaire diversification des usages, des pratiques, des outils… </li></ul></ul></ul><ul><ul><li>Adapter les outils aux besoins : </li></ul></ul><ul><ul><ul><li>Intérêt des outils spécialisés </li></ul></ul></ul><ul><ul><li>Suivre l’innovation technique des moteurs : </li></ul></ul><ul><ul><ul><li>Nombreux outils très innovants </li></ul></ul></ul>
    4. 4. 1/ Des ressources pour se former et s’informer <ul><li>Difficultés de la veille sur les outils de recherche : </li></ul><ul><ul><li>Rapidité des innovations </li></ul></ul><ul><ul><li>Surabondance des sources </li></ul></ul><ul><li>Mais remèdes dans les outils eux-mêmes : </li></ul><ul><ul><li>Fils RSS, portail Netvibes, blogs… </li></ul></ul><ul><li>Deux ressources de l’URFIST de Rennes </li></ul><ul><ul><li>Sélection de ressources sur les outils de recherche </li></ul></ul><ul><ul><li>Le portail Netvibes de l’ URFIST de Rennes </li></ul></ul>
    5. 5. 2.1 Fonctionnement des moteurs de recherche Source : R. Viseur, CETIC
    6. 6. 2.1 Fonctionnement… : la collecte des données <ul><li>Le crawl = parcours de la toile par les moteurs pour aspirer les pages de sites </li></ul><ul><li>Plusieurs modalités d’exploration du web : </li></ul><ul><ul><li>soumission manuelle par les webmestres, référencement payant </li></ul></ul><ul><ul><li>sélection des meilleurs sites </li></ul></ul><ul><ul><li>explorations aléatoires </li></ul></ul><ul><li>Etendue, profondeur de la collecte : </li></ul><ul><ul><li>Parcours des liens (horizontaux/ verticaux) </li></ul></ul><ul><ul><li>différences entre les moteurs dans l’exploration des sites </li></ul></ul><ul><ul><li>importance de la taille des fichiers : nbre d’octets pris en compte </li></ul></ul><ul><li>Paramétrages du robot : </li></ul><ul><ul><li>Nature des fichiers collectés : recul du « web invisible » </li></ul></ul><ul><ul><li>Délai de prise en charge (soumission manuelle) : de 1 jour à 6 semaines </li></ul></ul><ul><ul><li>Rythme de surveillance : « rafraîchissement » de l’index (de 2 à 8 semaines) </li></ul></ul><ul><ul><ul><li>Variable en fonction du type d’information </li></ul></ul></ul><ul><li>Evolution : du batch crawling au crawler incrémental </li></ul>
    7. 7. 2.1 Fonctionnement… : l’indexation des données <ul><li>Deux grandes méthodes d'analyse dans l'indexation automatisée : </li></ul><ul><ul><li>analyse linguistique : fondée sur la reconnaissance des mots </li></ul></ul><ul><ul><li>analyse statistique : fondée sur la fréquence des mots </li></ul></ul><ul><li>4 niveaux d'analyse linguistique du texte intégral: </li></ul><ul><ul><li>niveau morphologique : reconnaissance du mot </li></ul></ul><ul><ul><li>niveau lexical : réduction du mot à sa forme canonique > lemmatisation </li></ul></ul><ul><ul><li>niveau syntaxique : utilisation de la grammaire </li></ul></ul><ul><ul><li>niveau sémantique : reconnaissance des concepts </li></ul></ul>
    8. 8. 2.1 Fonctionnement… : l’indexation des données <ul><li>Principale méthode d’indexation automatisée : traitement statistique des mots </li></ul><ul><li>Indexation fondée sur calcul de fréquence d’apparition des mots dans un texte : les occurrences </li></ul><ul><li>Postulat : </li></ul><ul><ul><li>si l'indice de fréquence d'un mot est supérieur à son indice moyen, il doit s'agir d'un mot-clé pertinent, décrivant bien le sujet du texte. </li></ul></ul><ul><li>Principale méthode d’indexation sur le web </li></ul>
    9. 9. 2.1 Fonctionnement… : la gestion des requêtes et des résultats <ul><li>Partie visible du moteur de recherche ; trois grandes fonctions : </li></ul><ul><ul><ul><li>gestion des requêtes : </li></ul></ul></ul><ul><ul><ul><ul><li>fonctions de recherche en mode simple et avancé, différentes options de filtrage, affinement... </li></ul></ul></ul></ul><ul><ul><ul><li>gestion des résultats : </li></ul></ul></ul><ul><ul><ul><ul><li>quels critères de classement ? question des critères de pertinence </li></ul></ul></ul></ul><ul><ul><ul><li>gestion de la présentation des résultats : </li></ul></ul></ul><ul><ul><ul><ul><li>Listes, cartographie, aperçu graphique… </li></ul></ul></ul></ul>
    10. 10. 2.1 Fonctionnement… : la gestion des requêtes <ul><li>Fonction la plus répandue : nombreuses possibilités de filtrage </li></ul><ul><ul><li>géographique du web : mondial, francophone </li></ul></ul><ul><ul><li>linguistique : choix de la langue des ressources </li></ul></ul><ul><ul><li>des types de ressources : images, audio… </li></ul></ul><ul><ul><li>des ressources internet : web, forum, messagerie, weblogs </li></ul></ul><ul><ul><li>des formats : HTML, PDF, DOC, PPT, XLS, RTF… </li></ul></ul><ul><ul><li>des dates : nombreuses options </li></ul></ul><ul><ul><li>des champs : titre, URL, host, domaine… </li></ul></ul><ul><ul><li>thématique : choix du domaine de recherche </li></ul></ul>
    11. 11. 2.1 Fonctionnement… : la gestion des résultats <ul><li>Enjeux du «  relevance ranking  », du classement des résultats selon leur pertinence </li></ul><ul><li>Trois grandes méthodes de classement : </li></ul><ul><ul><li>tri par indice de pertinence : calculs statistiques sur la fréquence des termes… </li></ul></ul><ul><ul><li>tri par popularité : indice de popularité </li></ul></ul><ul><ul><li>tri par catégorisation : calcul dynamique de catégories </li></ul></ul>
    12. 12. 2.1 Fonctionnement… la gestion des résultats : l’indice de pertinence <ul><li>Principes : </li></ul><ul><ul><li>classement des résultats fondé sur la fréquence d’apparition et la localisation des termes de la requête dans une page web </li></ul></ul><ul><ul><li>affichage des résultats à partir du calcul d’un score pour chaque réponse : </li></ul></ul><ul><ul><ul><li>Ex. : Requête sur le marché des DVD en France : +marché +DVD +France </li></ul></ul></ul><ul><ul><ul><li>> retourne les documents contenant tous les mots de la requête </li></ul></ul></ul><ul><ul><ul><li>>> documents contenant le plus de fois les mots de la requête classés en premier </li></ul></ul></ul><ul><li>Utilisation : </li></ul><ul><ul><li>première méthode de classement utilisée sur le web, la plus répandue ; </li></ul></ul><ul><li>Problèmes : </li></ul><ul><ul><li>détournement par le spamdexing </li></ul></ul>
    13. 13. 2.1 Fonctionnement… la gestion des résultats : l’indice de popularité <ul><li>Principes, origines : </li></ul><ul><ul><li>Utilisation de la nature hypertextuelle du web : prise en compte des liens entre sites, considérés comme des liens de parenté sémantique </li></ul></ul><ul><ul><li>calcul de la notoriété d’un site en fonction du nombre de liens pointant vers le site </li></ul></ul><ul><li>Utilisation : </li></ul><ul><ul><li>indice de popularité lancé par Google en 98 </li></ul></ul><ul><ul><ul><li>originalité et succès de Google et de son PageRank </li></ul></ul></ul><ul><li>Avantages de l’indice de popularité : </li></ul><ul><ul><li>renforcement de la pertinence </li></ul></ul><ul><ul><li>réduction du spamdexing </li></ul></ul>
    14. 14. 2.1 Fonctionnement… la gestion des résultats : la catégorisation automatique <ul><li>Technologies plus complexes ; domaine d’innovations avancées des moteurs : </li></ul><ul><ul><li>cf Exalead , Grokker , certains métamoteurs </li></ul></ul><ul><li>Principes : </li></ul><ul><ul><li>organisation en temps réel d’un lot de résultats pour donner possibilité d’affiner ou étendre la requête </li></ul></ul><ul><ul><li>répartition des documents dans des catégories </li></ul></ul><ul><li>Intérêt pour la recherche : </li></ul><ul><ul><ul><li>aide à la sélection d’un mot-résultat </li></ul></ul></ul><ul><ul><ul><li>aide à l’élimination des corrélations inintéressantes, </li></ul></ul></ul><ul><ul><ul><li>suggestion d’idées et de pistes nouvelles </li></ul></ul></ul><ul><li> enjeu essentiel : mise en ordre du « chaos informationnel </li></ul>
    15. 15. 2.2 Typologies des moteurs de recherche <ul><li>Difficultés des typologies </li></ul><ul><li>Quatre grandes catégories de critères : </li></ul><ul><ul><li>L’offre des ressources : </li></ul></ul><ul><ul><ul><li>Moteurs généralistes / spécialisés </li></ul></ul></ul><ul><ul><ul><ul><li>Diversité des spécialisations </li></ul></ul></ul></ul><ul><ul><li>L’implication des internautes : </li></ul></ul><ul><ul><ul><li>Moteurs participatifs : </li></ul></ul></ul><ul><ul><ul><ul><li>collaboratifs, personnalisables… </li></ul></ul></ul></ul><ul><ul><li>Le mode d’indexation des données : </li></ul></ul><ul><ul><ul><li>Moteurs morpho-syntaxiques, sémantiques… </li></ul></ul></ul><ul><ul><li>La présentation des résultats : </li></ul></ul><ul><ul><ul><li>Moteurs linéaires, visuels, cartographiques… </li></ul></ul></ul><ul><li>Imbrication des critères </li></ul>
    16. 16. 2.2 Typologies des moteurs de recherche : l’offre des ressources <ul><li>Critère : type de ressources collectées </li></ul><ul><li>Distinction principale : </li></ul><ul><ul><li>Moteurs généralistes : G., Yahoo, Exalead, Ask, Live Search… </li></ul></ul><ul><ul><ul><li>caractéristique historique des grands moteurs : collecte et indexation de tous les types de ressources </li></ul></ul></ul><ul><ul><li>Moteurs spécialisés : </li></ul></ul><ul><ul><ul><li>Tendance lourde des moteurs : </li></ul></ul></ul><ul><ul><ul><ul><li>Modules spécialisés à l’intérieur des moteurs généralistes </li></ul></ul></ul></ul><ul><ul><ul><li>Infinité des types de spécialisations </li></ul></ul></ul><ul><ul><ul><li>Explosion du nombre d’outils </li></ul></ul></ul>
    17. 17. 2.2 Typologies… L’offre des ressources : diversité des spécialisations <ul><li>Choix retenu pour l’exploration : </li></ul><ul><ul><li>3 critères de spécialisations : </li></ul></ul><ul><ul><ul><li>Selon les ressources internet : </li></ul></ul></ul><ul><ul><ul><ul><li>Moteurs de blogs, de forums, de listes de diffusion, de FAQ, de wikis, de fils RSS… </li></ul></ul></ul></ul><ul><ul><ul><li>Selon la nature du contenu : </li></ul></ul></ul><ul><ul><ul><ul><li>Moteurs scientifiques, d’actualité, de personnes, de produits… </li></ul></ul></ul></ul><ul><ul><ul><li>Selon la nature du média : </li></ul></ul></ul><ul><ul><ul><ul><li>Moteurs d’images, de vidéos, de podcasts, de photos.. </li></ul></ul></ul></ul><ul><li>Autres critères possibles : langue, géographie, domaine thématique… </li></ul>
    18. 18. 2.2 Typologies… : l’implication des internautes <ul><li>Difficultés de caractérisation du critère, très récent : </li></ul><ul><ul><li>Intégration des aspects « web 2.0 » dans les moteurs </li></ul></ul><ul><li>Critère principal : aspect « social » des moteurs de recherche </li></ul><ul><ul><li>Degré, nature, modalités… d’implication des internautes dans le moteur de recherche </li></ul></ul><ul><li>Trois types présentés : </li></ul><ul><ul><li>Moteurs collaboratifs : Wikia </li></ul></ul><ul><ul><li>Moteurs personnalisables : Yahoo Search Building </li></ul></ul><ul><ul><li>Moteurs « sociaux » : Baagz </li></ul></ul><ul><li>Tendance de développement des moteurs très importante : enjeux économiques, image des outils… </li></ul>
    19. 19. 2.2 Typologies… : l’indexation des données <ul><li>Critère : mode d’indexation des données </li></ul><ul><li>Typologie possible selon les différents niveaux d’indexation linguistique : </li></ul><ul><ul><li>Moteurs d’indexation : </li></ul></ul><ul><ul><ul><li>Morphologique </li></ul></ul></ul><ul><ul><ul><li>Lexicale </li></ul></ul></ul><ul><ul><ul><li>Syntaxique </li></ul></ul></ul><ul><ul><ul><li>Sémantique </li></ul></ul></ul><ul><li>Typologie difficile à utiliser en pratique </li></ul><ul><li>Imbrication des modalités d’indexation </li></ul><ul><li>Enjeux des moteurs sémantiques </li></ul>
    20. 20. 2.2 Typologies… : la présentation des résultats <ul><li>Innovations les plus spectaculaires à venir : les interfaces, la présentation des données </li></ul><ul><li>Distinctions possibles : </li></ul><ul><ul><li>Moteurs linéaires, classiques </li></ul></ul><ul><ul><li>Moteurs cartographiques, à clusters </li></ul></ul><ul><ul><li>Moteurs visuels </li></ul></ul><ul><ul><li>Moteurs parlants ? </li></ul></ul><ul><ul><li>… </li></ul></ul>
    21. 21. 3/ Explorations des différentes catégories de moteurs <ul><li>Des moteurs pour trouver d’autres moteurs </li></ul><ul><li>3.1 Moteurs généralistes : </li></ul><ul><ul><li>Exalead, Yahoo </li></ul></ul><ul><li>3.2 Moteurs « participatifs » : </li></ul><ul><ul><li>Yahoo Search Building, Wikia, Baagz </li></ul></ul><ul><li>3.3 Moteurs spécialisés : </li></ul><ul><ul><li>Selon différents types de ressources </li></ul></ul><ul><li>3.4 Moteurs sémantiques </li></ul><ul><li>3.5 Moteurs visuels, cartographiques… </li></ul>
    22. 22. 3.1 Exploration des moteurs : Les moteurs généralistes Exalead <ul><ul><li>Créé par François Bourdoncle (ingénieur de l’Ecole des Mines) en 1999. </li></ul></ul><ul><ul><li>Moteur très innovant </li></ul></ul><ul><ul><li>Entreprise française en plein développement </li></ul></ul><ul><ul><ul><li>Plateforme technologique et de services pour entreprises : </li></ul></ul></ul><ul><ul><ul><ul><li>2ème place en France </li></ul></ul></ul></ul><ul><ul><ul><li>Moteur grand public </li></ul></ul></ul><ul><ul><li>Orientation technique : </li></ul></ul><ul><ul><ul><li>aider l'usager dans la recherche d'information </li></ul></ul></ul><ul><ul><ul><li>Intégration de la serendipité </li></ul></ul></ul><ul><ul><li>Exalead partie prenante du projet Quaero </li></ul></ul>
    23. 23. 3.1 Exploration des moteurs : Les moteurs généralistes Exalead <ul><ul><li>Un moteur innovant dans le traitement et la présentation des résultats : </li></ul></ul><ul><ul><ul><li>Processus de catégorisation (a posteriori) </li></ul></ul></ul><ul><ul><ul><li>Analyse statistico-sémantique des pages de résultats, conduisant à l’identification des mots et expressions les plus fréquents </li></ul></ul></ul><ul><ul><ul><li>Aperçu graphique du contenu de la page / prévisualisation </li></ul></ul></ul><ul><ul><ul><li>Nombreuses possibilités d'affinement de la requête : </li></ul></ul></ul><ul><ul><ul><ul><li>Rubriques associées </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Limitation par zones géographiques </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Différents types de fichiers </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Recherches spécialisées : actualité, RSS... </li></ul></ul></ul></ul>
    24. 24. 3.1 Exploration des moteurs : Les moteurs généralistes Exalead <ul><li>Récentes évolutions : </li></ul><ul><ul><ul><ul><li>Recherche dans les blogs et forums.. </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Filtre “visages” (module Images) : partenariat avec LTU Technologies </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Partenariat avec l’INIST </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Nouveau module de recherche sur Wikipedia </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Module de méta-recherche de vidéos </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Intégration des tags dans la recherche </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Création d'un blog (ExaBlog) de l'entreprise </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Création de Baagz, moteur social </li></ul></ul></ul></ul><ul><li>Exalead comme alternative à Google ? </li></ul>
    25. 25. 3.1 Exploration des moteurs : Les moteurs généralistes Yahoo Search <ul><li>Moteur né en février 2004, après l’annuaire et le portail </li></ul><ul><li>Fait partie du trio de tête des moteurs de recherche </li></ul><ul><ul><li>15 à 20 milliards de pages indexées (cf. O. Andrieu) </li></ul></ul><ul><ul><li>Concurrence permanente avec Google et Microsoft </li></ul></ul><ul><ul><li>Propositions récentes de rachat par Microsoft </li></ul></ul><ul><ul><li>… mais Yahoo rejoint en mars le projet Open Social de Google </li></ul></ul><ul><li>Politique de développement de niches de recherche </li></ul><ul><li>Yahoo Search et le web 2.0 </li></ul><ul><ul><li>personnalisation et partage avec “Mon Web 2.0” </li></ul></ul><ul><ul><li>recherche sur les flux RSS </li></ul></ul><ul><ul><li>… </li></ul></ul>
    26. 26. 3.1 Exploration des moteurs : Les moteurs généralistes Yahoo Search <ul><li>Quelques développements récents de Yahoo : </li></ul><ul><ul><li>Intégration des résultats de del.icio.us </li></ul></ul><ul><ul><li>Intégration de Flickr pour la recherche d’images </li></ul></ul><ul><ul><li>Lancement de Yahoo Live en févier 2008 , service de diffusion de vidéos concurrent de YouTube </li></ul></ul><ul><ul><li>Re-lancement de Yahoo Vidéo (« user generated content » + contenu exclusif) </li></ul></ul><ul><ul><li>Prototype de Yahoo! NewsGlobe (service d’informations locales) </li></ul></ul><ul><ul><li>Assistant de recherche Yahoo! France </li></ul></ul><ul><ul><li>Enrichissement des notices de Yahoo! Recherche par les webmestres </li></ul></ul><ul><ul><li>Préparation pour le dernier trimestre 2008 du lancement de OneConnect </li></ul></ul>
    27. 27. 3.2 Moteurs «participatifs » : moteurs personnalisables <ul><li>Des moteurs “sur mesure” / recherche verticale </li></ul><ul><ul><li>Choix par l’internaute du périmètre des recherches : ensemble donné de sites web, thématique précise, type d’informations </li></ul></ul><ul><ul><li>Compte gratuit </li></ul></ul><ul><ul><li>Système de veille </li></ul></ul><ul><li>Concurrence des “3 grands” dans ce domaine : </li></ul><ul><ul><li>Google CSE : Google Custom Search Engine </li></ul></ul><ul><ul><li>Live Search : Live Search macros </li></ul></ul><ul><ul><li>Yahoo! Search Builder : </li></ul></ul><ul><ul><ul><li>Search Monkey : pour les développeurs http:// tools.search.yahoo.com/newsearch/open.html </li></ul></ul></ul><ul><ul><li>Les Swickis d’Eurekster : http:// www.eurekster.com / </li></ul></ul><ul><ul><li>Rollyo : http:// www.rollyo.com / </li></ul></ul>
    28. 28. 3.2 Moteurs «participatifs » : moteurs « contributifs » <ul><li>Principes : </li></ul><ul><ul><li>Enrichissement de la recherche par les internautes </li></ul></ul><ul><ul><li>Exemples : </li></ul></ul><ul><ul><ul><li>Wikia Search : </li></ul></ul></ul><ul><ul><ul><ul><li>lancé le 7 janvier 2008 par Jimmy Wales (Wikia Inc.) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Alternative communautaire aux moteurs généralistes </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Sur le modèle de Wikipédia </li></ul></ul></ul></ul><ul><ul><ul><ul><li>Introduit la pondération des documents web par des internautes qualifiés et la méthode d’indexation ouverte (par le biais de mini-articles) </li></ul></ul></ul></ul><ul><ul><ul><li>Yoono </li></ul></ul></ul><ul><ul><ul><ul><li>Basé sur les recommandations des internautes </li></ul></ul></ul></ul>
    29. 29. 3.2 Moteurs «participatifs » : moteurs « sociaux » et collaboratifs <ul><li>Exemple de Baagz : </li></ul><ul><ul><li>Lancé par Exalead en octobre 2007 </li></ul></ul><ul><li>Principes : </li></ul><ul><ul><li>Concept du « petit sac » d’informations, du bureau en ligne… </li></ul></ul><ul><ul><li>Mixte de moteur de recherche (Exalead), de portail de flux RSS et de réseau social </li></ul></ul><ul><ul><li>Technologies web 2.0 : Ajax </li></ul></ul><ul><li>Utilisations : </li></ul><ul><ul><li>Partage de ressources </li></ul></ul><ul><ul><li>Création d’espaces personnels et/ou publics autour de centres d’intérêt </li></ul></ul><ul><li>Continuum des espaces informationnels : </li></ul><ul><ul><li>Sphère privée : fichiers du disque dur </li></ul></ul><ul><ul><li>Web </li></ul></ul><ul><ul><li>Réseaux sociaux </li></ul></ul>
    30. 30. 3.3 Moteurs spécialisés : selon les ressources internet <ul><li>Pour trouver ou chercher dans : </li></ul><ul><li>Des listes de diffusion  : Francopholistes </li></ul><ul><li>Des forums  : Yahoo Groups </li></ul><ul><li>Des FAQ  : QueryCat </li></ul><ul><li>Des blogs  : Technorati , Sphere </li></ul><ul><li>Des wikis  : Qwika   </li></ul><ul><li>Des fils RSS  : RSSfeeds </li></ul><ul><li>Des réseaux sociaux  : YoName </li></ul><ul><li>Des plates-formes de partage de signets  : Thagoo   </li></ul><ul><li>Pour chercher dans les ressources web 2.0 : </li></ul><ul><li>Un métamoteur de fils RSS  : MetaRSS </li></ul>
    31. 31. 3.3 Moteurs spécialisés : selon la nature du contenu <ul><li>Pour trouver : </li></ul><ul><li>Des informations d’actualité (dépêches, articles…) : </li></ul><ul><ul><li>Wikio </li></ul></ul><ul><li>Des informations, des documents scientifiques : </li></ul><ul><ul><li>Scirus , In-Extenso.org… </li></ul></ul><ul><li>Des informations sur les entreprises : </li></ul><ul><ul><li>Accoona </li></ul></ul><ul><li>Des informations sur les produits : </li></ul><ul><ul><li>Kelkoo </li></ul></ul><ul><li>Des informations sur des individus : </li></ul><ul><ul><li>Spock , 123People </li></ul></ul><ul><li>Des offres d’emploi : </li></ul><ul><ul><li>Moovement.fr </li></ul></ul><ul><li>Des sites, des villes, des organisations géolocalisées : </li></ul><ul><ul><li>Geolocalisation </li></ul></ul>
    32. 32. 3.3 Moteurs spécialisés : selon la nature du « média » <ul><li>Pour trouver : </li></ul><ul><li>Des images : </li></ul><ul><ul><li>Les modules images des moteurs : Exalead Images , Yahoo Images … </li></ul></ul><ul><ul><li>Picsearch </li></ul></ul><ul><li>Des vidéos : </li></ul><ul><ul><li>Modules vidéos des moteurs généralistes : Exalead Vidéos </li></ul></ul><ul><ul><li>Blinkx </li></ul></ul><ul><ul><ul><li>Recherche en texte intégral sur des émissions de télé et de radio grâce à un système de reconnaissance vocale </li></ul></ul></ul><ul><li>Des podcasts : </li></ul><ul><ul><li>Casteropod : </li></ul></ul><ul><ul><ul><li>Exemple de podcast de formation </li></ul></ul></ul><ul><li>Des musiques : </li></ul><ul><ul><li>Seeqpod </li></ul></ul>
    33. 33. 3.4 Typologie des moteurs selon l’indexation <ul><li>Importance de la question de l’indexation sur le web </li></ul><ul><li>Multiples facettes de l’indexation : </li></ul><ul><ul><li>Indexation linguistique, le TAL : </li></ul></ul><ul><ul><ul><li>Différents niveaux d’indexation linguistique </li></ul></ul></ul><ul><ul><li>Indexation sociale : </li></ul></ul><ul><ul><ul><li>Tags du web 2.0 </li></ul></ul></ul><ul><ul><li>Indexation sémantique : </li></ul></ul><ul><ul><ul><li>Ontologies, web sémantique </li></ul></ul></ul>
    34. 34. 3.4 Typologie des moteurs selon l’indexation : l’indexation morphologique <ul><li>Niveau d ’analyse : </li></ul><ul><ul><li>reconnaissance de la forme des mots </li></ul></ul><ul><li>Principes : </li></ul><ul><ul><li>Segmentation du texte en unités élémentaires : mots (chaînes de caractères) </li></ul></ul><ul><li>Limites : </li></ul><ul><ul><li>index volumineux </li></ul></ul><ul><ul><li>ordre des mots non pris en compte </li></ul></ul><ul><ul><li>indexation des différentes flexions d’un mot : verbes, pluriel/singulier… </li></ul></ul><ul><ul><li>analyse de mots isolés, pas de prise en compte des expressions : </li></ul></ul><ul><ul><ul><li>« pomme de terre » = pomme, de, terre </li></ul></ul></ul><ul><li>Principal niveau d’indexation sur le web </li></ul>
    35. 35. 3.4 Typologie des moteurs selon l’indexation : l’indexation lexicale <ul><li>Objet : prise en compte des variations morphologiques des mots : </li></ul><ul><ul><li>la conjugaison, le genre, le nombre des mots </li></ul></ul><ul><li>Principe de la lemmatisation (normalisation) : </li></ul><ul><ul><li>réduction des mots à leur forme canonique, à leur racine : </li></ul></ul><ul><ul><ul><li>formes d'un verbe regroupées à l'infinitif </li></ul></ul></ul><ul><ul><ul><li>mots au pluriel ramenés au singulier... : amiraux > amiral + amiraux </li></ul></ul></ul><ul><ul><li>Objectif : diminution des index </li></ul></ul><ul><li>Mieux développée aujourd’hui sur le web : </li></ul><ul><ul><li>lemmatisation sur plusieurs moteurs (Google, Exalead…) accès aux variations morphologiques des mots </li></ul></ul><ul><ul><li>correction orthographique : Culture.fr </li></ul></ul>
    36. 36. 3.4 Typologie des moteurs selon l’indexation : l’indexation syntaxique <ul><li>Niveau d’analyse : </li></ul><ul><ul><li>passage de la forme à la grammaire : analyse à partir de la phrase, identification des relations entre les mots... </li></ul></ul><ul><li>Principes : </li></ul><ul><ul><li>identification des groupes nominaux, des expressions </li></ul></ul><ul><ul><li>repérage de la place des mots dans une phrase </li></ul></ul><ul><ul><li>reconnaissance des expressions contiguës ou disjointes : </li></ul></ul><ul><ul><ul><li>dans l'expression : « Agence Française de presse », reconnaissance de l'expression « agence de presse » </li></ul></ul></ul><ul><li>Indexation syntaxique sur le web : </li></ul><ul><ul><li>encore limitée ; sauf prise en compte de l’ordre des mots, assez répandue </li></ul></ul><ul><ul><li>reconnaissance de groupes nominaux </li></ul></ul>
    37. 37. 3.4 Typologie des moteurs selon l’indexation : l’indexation sémantique <ul><li>Niveau d ’analyse : </li></ul><ul><ul><li>reconnaissance des concepts, identification du sens des mots </li></ul></ul><ul><li>Principes : </li></ul><ul><ul><li>sémantique lexicale : analyse du sens des mots, reconnaissance des synonymes... </li></ul></ul><ul><ul><li>sémantique grammaticale : identification et analyse des relations sémantiques entre les mots, regroupement des termes de sens proche (classes sémantiques)… </li></ul></ul><ul><ul><li>utilisation des co-occurrences pour représentation des concepts </li></ul></ul><ul><li>Assez rare sur le web, présente surtout sur des corpus limités : </li></ul><ul><ul><li>Développement des classifications automatiques </li></ul></ul><ul><ul><li>Indexation automatique des matériaux de presse </li></ul></ul><ul><ul><li>Moteur sémantique : Portail Culture.fr , Collections </li></ul></ul>
    38. 38. 3.5 Présentation des résultats : moteurs visuels, cartographiques <ul><li>Moteurs visuels : </li></ul><ul><ul><li>SearchMe </li></ul></ul><ul><ul><ul><li>Version de test d’un moteur de recherche visuel reposant sur la technologie flash </li></ul></ul></ul><ul><ul><ul><li>Visualisation directe par feuilletage des sites répondant à la requête (captures d’écran) </li></ul></ul></ul><ul><ul><li>Aperçus graphiques sur Exalead </li></ul></ul><ul><ul><ul><li>Vignettes et aperçus des sites en parallèle à la liste des résultats </li></ul></ul></ul><ul><li>Moteurs cartographiques : </li></ul><ul><ul><li>Grokker </li></ul></ul><ul><ul><ul><li>Regroupement visuel des résultats en un seul plan graphique </li></ul></ul></ul><ul><ul><ul><li>Catégories contextuelles </li></ul></ul></ul><ul><ul><ul><li>Liens entre les sites </li></ul></ul></ul>
    1. A particular slide catching your eye?

      Clipping is a handy way to collect important slides you want to go back to later.

    ×