Your SlideShare is downloading. ×
Moteurs de recherche : sortir de Google
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

Moteurs de recherche : sortir de Google

7,412
views

Published on

Published in: Technology

0 Comments
7 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
7,412
On Slideshare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
202
Comments
0
Likes
7
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Transcript

    • 1. Approfondissement des moteurs de recherche : “SORTIR” DE GOOGLE ...
        • Stage URFIST de Rennes
        • 18 novembre 2008
        • Marie-Laure Malingre
        • Alexandre Serres
    • 2. PRESENTATION du stage
      • Intro. : pourquoi sortir de Google ?
      • 1/ Des ressources pour se former et s’informer
      • 2/ Fonctionnement et typologies des moteurs de recherche
      • 3/ Explorations de différents types de moteurs
    • 3. En introduction
      • 4 raisons (au moins !) de sortir de Google :
        • Briser le monopole « googléen » :
          • Cf le Baromètre de S2M
        • Résister à la « googlisation » des usages :
          • Nécessaire diversification des usages, des pratiques, des outils…
        • Adapter les outils aux besoins :
          • Intérêt des outils spécialisés
        • Suivre l’innovation technique des moteurs :
          • Nombreux outils très innovants
    • 4. 1/ Des ressources pour se former et s’informer
      • Difficultés de la veille sur les outils de recherche :
        • Rapidité des innovations
        • Surabondance des sources
      • Mais remèdes dans les outils eux-mêmes :
        • Fils RSS, portail Netvibes, blogs…
      • Deux ressources de l’URFIST de Rennes
        • Sélection de ressources sur les outils de recherche
        • Le portail Netvibes de l’ URFIST de Rennes
    • 5. 2.1 Fonctionnement des moteurs de recherche Source : R. Viseur, CETIC
    • 6. 2.1 Fonctionnement… : la collecte des données
      • Le crawl = parcours de la toile par les moteurs pour aspirer les pages de sites
      • Plusieurs modalités d’exploration du web :
        • soumission manuelle par les webmestres, référencement payant
        • sélection des meilleurs sites
        • explorations aléatoires
      • Etendue, profondeur de la collecte :
        • Parcours des liens (horizontaux/ verticaux)
        • différences entre les moteurs dans l’exploration des sites
        • importance de la taille des fichiers : nbre d’octets pris en compte
      • Paramétrages du robot :
        • Nature des fichiers collectés : recul du « web invisible »
        • Délai de prise en charge (soumission manuelle) : de 1 jour à 6 semaines
        • Rythme de surveillance : « rafraîchissement » de l’index (de 2 à 8 semaines)
          • Variable en fonction du type d’information
      • Evolution : du batch crawling au crawler incrémental
    • 7. 2.1 Fonctionnement… : l’indexation des données
      • Deux grandes méthodes d'analyse dans l'indexation automatisée :
        • analyse linguistique : fondée sur la reconnaissance des mots
        • analyse statistique : fondée sur la fréquence des mots
      • 4 niveaux d'analyse linguistique du texte intégral:
        • niveau morphologique : reconnaissance du mot
        • niveau lexical : réduction du mot à sa forme canonique > lemmatisation
        • niveau syntaxique : utilisation de la grammaire
        • niveau sémantique : reconnaissance des concepts
    • 8. 2.1 Fonctionnement… : l’indexation des données
      • Principale méthode d’indexation automatisée : traitement statistique des mots
      • Indexation fondée sur calcul de fréquence d’apparition des mots dans un texte : les occurrences
      • Postulat :
        • si l'indice de fréquence d'un mot est supérieur à son indice moyen, il doit s'agir d'un mot-clé pertinent, décrivant bien le sujet du texte.
      • Principale méthode d’indexation sur le web
    • 9. 2.1 Fonctionnement… : la gestion des requêtes et des résultats
      • Partie visible du moteur de recherche ; trois grandes fonctions :
          • gestion des requêtes :
            • fonctions de recherche en mode simple et avancé, différentes options de filtrage, affinement...
          • gestion des résultats :
            • quels critères de classement ? question des critères de pertinence
          • gestion de la présentation des résultats :
            • Listes, cartographie, aperçu graphique…
    • 10. 2.1 Fonctionnement… : la gestion des requêtes
      • Fonction la plus répandue : nombreuses possibilités de filtrage
        • géographique du web : mondial, francophone
        • linguistique : choix de la langue des ressources
        • des types de ressources : images, audio…
        • des ressources internet : web, forum, messagerie, weblogs
        • des formats : HTML, PDF, DOC, PPT, XLS, RTF…
        • des dates : nombreuses options
        • des champs : titre, URL, host, domaine…
        • thématique : choix du domaine de recherche
    • 11. 2.1 Fonctionnement… : la gestion des résultats
      • Enjeux du «  relevance ranking  », du classement des résultats selon leur pertinence
      • Trois grandes méthodes de classement :
        • tri par indice de pertinence : calculs statistiques sur la fréquence des termes…
        • tri par popularité : indice de popularité
        • tri par catégorisation : calcul dynamique de catégories
    • 12. 2.1 Fonctionnement… la gestion des résultats : l’indice de pertinence
      • Principes :
        • classement des résultats fondé sur la fréquence d’apparition et la localisation des termes de la requête dans une page web
        • affichage des résultats à partir du calcul d’un score pour chaque réponse :
          • Ex. : Requête sur le marché des DVD en France : +marché +DVD +France
          • > retourne les documents contenant tous les mots de la requête
          • >> documents contenant le plus de fois les mots de la requête classés en premier
      • Utilisation :
        • première méthode de classement utilisée sur le web, la plus répandue ;
      • Problèmes :
        • détournement par le spamdexing
    • 13. 2.1 Fonctionnement… la gestion des résultats : l’indice de popularité
      • Principes, origines :
        • Utilisation de la nature hypertextuelle du web : prise en compte des liens entre sites, considérés comme des liens de parenté sémantique
        • calcul de la notoriété d’un site en fonction du nombre de liens pointant vers le site
      • Utilisation :
        • indice de popularité lancé par Google en 98
          • originalité et succès de Google et de son PageRank
      • Avantages de l’indice de popularité :
        • renforcement de la pertinence
        • réduction du spamdexing
    • 14. 2.1 Fonctionnement… la gestion des résultats : la catégorisation automatique
      • Technologies plus complexes ; domaine d’innovations avancées des moteurs :
        • cf Exalead , Grokker , certains métamoteurs
      • Principes :
        • organisation en temps réel d’un lot de résultats pour donner possibilité d’affiner ou étendre la requête
        • répartition des documents dans des catégories
      • Intérêt pour la recherche :
          • aide à la sélection d’un mot-résultat
          • aide à l’élimination des corrélations inintéressantes,
          • suggestion d’idées et de pistes nouvelles
      •  enjeu essentiel : mise en ordre du « chaos informationnel
    • 15. 2.2 Typologies des moteurs de recherche
      • Difficultés des typologies
      • Quatre grandes catégories de critères :
        • L’offre des ressources :
          • Moteurs généralistes / spécialisés
            • Diversité des spécialisations
        • L’implication des internautes :
          • Moteurs participatifs :
            • collaboratifs, personnalisables…
        • Le mode d’indexation des données :
          • Moteurs morpho-syntaxiques, sémantiques…
        • La présentation des résultats :
          • Moteurs linéaires, visuels, cartographiques…
      • Imbrication des critères
    • 16. 2.2 Typologies des moteurs de recherche : l’offre des ressources
      • Critère : type de ressources collectées
      • Distinction principale :
        • Moteurs généralistes : G., Yahoo, Exalead, Ask, Live Search…
          • caractéristique historique des grands moteurs : collecte et indexation de tous les types de ressources
        • Moteurs spécialisés :
          • Tendance lourde des moteurs :
            • Modules spécialisés à l’intérieur des moteurs généralistes
          • Infinité des types de spécialisations
          • Explosion du nombre d’outils
    • 17. 2.2 Typologies… L’offre des ressources : diversité des spécialisations
      • Choix retenu pour l’exploration :
        • 3 critères de spécialisations :
          • Selon les ressources internet :
            • Moteurs de blogs, de forums, de listes de diffusion, de FAQ, de wikis, de fils RSS…
          • Selon la nature du contenu :
            • Moteurs scientifiques, d’actualité, de personnes, de produits…
          • Selon la nature du média :
            • Moteurs d’images, de vidéos, de podcasts, de photos..
      • Autres critères possibles : langue, géographie, domaine thématique…
    • 18. 2.2 Typologies… : l’implication des internautes
      • Difficultés de caractérisation du critère, très récent :
        • Intégration des aspects « web 2.0 » dans les moteurs
      • Critère principal : aspect « social » des moteurs de recherche
        • Degré, nature, modalités… d’implication des internautes dans le moteur de recherche
      • Trois types présentés :
        • Moteurs collaboratifs : Wikia
        • Moteurs personnalisables : Yahoo Search Building
        • Moteurs « sociaux » : Baagz
      • Tendance de développement des moteurs très importante : enjeux économiques, image des outils…
    • 19. 2.2 Typologies… : l’indexation des données
      • Critère : mode d’indexation des données
      • Typologie possible selon les différents niveaux d’indexation linguistique :
        • Moteurs d’indexation :
          • Morphologique
          • Lexicale
          • Syntaxique
          • Sémantique
      • Typologie difficile à utiliser en pratique
      • Imbrication des modalités d’indexation
      • Enjeux des moteurs sémantiques
    • 20. 2.2 Typologies… : la présentation des résultats
      • Innovations les plus spectaculaires à venir : les interfaces, la présentation des données
      • Distinctions possibles :
        • Moteurs linéaires, classiques
        • Moteurs cartographiques, à clusters
        • Moteurs visuels
        • Moteurs parlants ?
    • 21. 3/ Explorations des différentes catégories de moteurs
      • Des moteurs pour trouver d’autres moteurs
      • 3.1 Moteurs généralistes :
        • Exalead, Yahoo
      • 3.2 Moteurs « participatifs » :
        • Yahoo Search Building, Wikia, Baagz
      • 3.3 Moteurs spécialisés :
        • Selon différents types de ressources
      • 3.4 Moteurs sémantiques
      • 3.5 Moteurs visuels, cartographiques…
    • 22. 3.1 Exploration des moteurs : Les moteurs généralistes Exalead
        • Créé par François Bourdoncle (ingénieur de l’Ecole des Mines) en 1999.
        • Moteur très innovant
        • Entreprise française en plein développement
          • Plateforme technologique et de services pour entreprises :
            • 2ème place en France
          • Moteur grand public
        • Orientation technique :
          • aider l'usager dans la recherche d'information
          • Intégration de la serendipité
        • Exalead partie prenante du projet Quaero
    • 23. 3.1 Exploration des moteurs : Les moteurs généralistes Exalead
        • Un moteur innovant dans le traitement et la présentation des résultats :
          • Processus de catégorisation (a posteriori)
          • Analyse statistico-sémantique des pages de résultats, conduisant à l’identification des mots et expressions les plus fréquents
          • Aperçu graphique du contenu de la page / prévisualisation
          • Nombreuses possibilités d'affinement de la requête :
            • Rubriques associées
            • Limitation par zones géographiques
            • Différents types de fichiers
            • Recherches spécialisées : actualité, RSS...
    • 24. 3.1 Exploration des moteurs : Les moteurs généralistes Exalead
      • Récentes évolutions :
            • Recherche dans les blogs et forums..
            • Filtre “visages” (module Images) : partenariat avec LTU Technologies
            • Partenariat avec l’INIST
            • Nouveau module de recherche sur Wikipedia
            • Module de méta-recherche de vidéos
            • Intégration des tags dans la recherche
            • Création d'un blog (ExaBlog) de l'entreprise
            • Création de Baagz, moteur social
      • Exalead comme alternative à Google ?
    • 25. 3.1 Exploration des moteurs : Les moteurs généralistes Yahoo Search
      • Moteur né en février 2004, après l’annuaire et le portail
      • Fait partie du trio de tête des moteurs de recherche
        • 15 à 20 milliards de pages indexées (cf. O. Andrieu)
        • Concurrence permanente avec Google et Microsoft
        • Propositions récentes de rachat par Microsoft
        • … mais Yahoo rejoint en mars le projet Open Social de Google
      • Politique de développement de niches de recherche
      • Yahoo Search et le web 2.0
        • personnalisation et partage avec “Mon Web 2.0”
        • recherche sur les flux RSS
    • 26. 3.1 Exploration des moteurs : Les moteurs généralistes Yahoo Search
      • Quelques développements récents de Yahoo :
        • Intégration des résultats de del.icio.us
        • Intégration de Flickr pour la recherche d’images
        • Lancement de Yahoo Live en févier 2008 , service de diffusion de vidéos concurrent de YouTube
        • Re-lancement de Yahoo Vidéo (« user generated content » + contenu exclusif)
        • Prototype de Yahoo! NewsGlobe (service d’informations locales)
        • Assistant de recherche Yahoo! France
        • Enrichissement des notices de Yahoo! Recherche par les webmestres
        • Préparation pour le dernier trimestre 2008 du lancement de OneConnect
    • 27. 3.2 Moteurs «participatifs » : moteurs personnalisables
      • Des moteurs “sur mesure” / recherche verticale
        • Choix par l’internaute du périmètre des recherches : ensemble donné de sites web, thématique précise, type d’informations
        • Compte gratuit
        • Système de veille
      • Concurrence des “3 grands” dans ce domaine :
        • Google CSE : Google Custom Search Engine
        • Live Search : Live Search macros
        • Yahoo! Search Builder :
          • Search Monkey : pour les développeurs http:// tools.search.yahoo.com/newsearch/open.html
        • Les Swickis d’Eurekster : http:// www.eurekster.com /
        • Rollyo : http:// www.rollyo.com /
    • 28. 3.2 Moteurs «participatifs » : moteurs « contributifs »
      • Principes :
        • Enrichissement de la recherche par les internautes
        • Exemples :
          • Wikia Search :
            • lancé le 7 janvier 2008 par Jimmy Wales (Wikia Inc.)
            • Alternative communautaire aux moteurs généralistes
            • Sur le modèle de Wikipédia
            • Introduit la pondération des documents web par des internautes qualifiés et la méthode d’indexation ouverte (par le biais de mini-articles)
          • Yoono
            • Basé sur les recommandations des internautes
    • 29. 3.2 Moteurs «participatifs » : moteurs « sociaux » et collaboratifs
      • Exemple de Baagz :
        • Lancé par Exalead en octobre 2007
      • Principes :
        • Concept du « petit sac » d’informations, du bureau en ligne…
        • Mixte de moteur de recherche (Exalead), de portail de flux RSS et de réseau social
        • Technologies web 2.0 : Ajax
      • Utilisations :
        • Partage de ressources
        • Création d’espaces personnels et/ou publics autour de centres d’intérêt
      • Continuum des espaces informationnels :
        • Sphère privée : fichiers du disque dur
        • Web
        • Réseaux sociaux
    • 30. 3.3 Moteurs spécialisés : selon les ressources internet
      • Pour trouver ou chercher dans :
      • Des listes de diffusion  : Francopholistes
      • Des forums  : Yahoo Groups
      • Des FAQ  : QueryCat
      • Des blogs  : Technorati , Sphere
      • Des wikis  : Qwika  
      • Des fils RSS  : RSSfeeds
      • Des réseaux sociaux  : YoName
      • Des plates-formes de partage de signets  : Thagoo  
      • Pour chercher dans les ressources web 2.0 :
      • Un métamoteur de fils RSS  : MetaRSS
    • 31. 3.3 Moteurs spécialisés : selon la nature du contenu
      • Pour trouver :
      • Des informations d’actualité (dépêches, articles…) :
        • Wikio
      • Des informations, des documents scientifiques :
        • Scirus , In-Extenso.org…
      • Des informations sur les entreprises :
        • Accoona
      • Des informations sur les produits :
        • Kelkoo
      • Des informations sur des individus :
        • Spock , 123People
      • Des offres d’emploi :
        • Moovement.fr
      • Des sites, des villes, des organisations géolocalisées :
        • Geolocalisation
    • 32. 3.3 Moteurs spécialisés : selon la nature du « média »
      • Pour trouver :
      • Des images :
        • Les modules images des moteurs : Exalead Images , Yahoo Images …
        • Picsearch
      • Des vidéos :
        • Modules vidéos des moteurs généralistes : Exalead Vidéos
        • Blinkx
          • Recherche en texte intégral sur des émissions de télé et de radio grâce à un système de reconnaissance vocale
      • Des podcasts :
        • Casteropod :
          • Exemple de podcast de formation
      • Des musiques :
        • Seeqpod
    • 33. 3.4 Typologie des moteurs selon l’indexation
      • Importance de la question de l’indexation sur le web
      • Multiples facettes de l’indexation :
        • Indexation linguistique, le TAL :
          • Différents niveaux d’indexation linguistique
        • Indexation sociale :
          • Tags du web 2.0
        • Indexation sémantique :
          • Ontologies, web sémantique
    • 34. 3.4 Typologie des moteurs selon l’indexation : l’indexation morphologique
      • Niveau d ’analyse :
        • reconnaissance de la forme des mots
      • Principes :
        • Segmentation du texte en unités élémentaires : mots (chaînes de caractères)
      • Limites :
        • index volumineux
        • ordre des mots non pris en compte
        • indexation des différentes flexions d’un mot : verbes, pluriel/singulier…
        • analyse de mots isolés, pas de prise en compte des expressions :
          • « pomme de terre » = pomme, de, terre
      • Principal niveau d’indexation sur le web
    • 35. 3.4 Typologie des moteurs selon l’indexation : l’indexation lexicale
      • Objet : prise en compte des variations morphologiques des mots :
        • la conjugaison, le genre, le nombre des mots
      • Principe de la lemmatisation (normalisation) :
        • réduction des mots à leur forme canonique, à leur racine :
          • formes d'un verbe regroupées à l'infinitif
          • mots au pluriel ramenés au singulier... : amiraux > amiral + amiraux
        • Objectif : diminution des index
      • Mieux développée aujourd’hui sur le web :
        • lemmatisation sur plusieurs moteurs (Google, Exalead…) accès aux variations morphologiques des mots
        • correction orthographique : Culture.fr
    • 36. 3.4 Typologie des moteurs selon l’indexation : l’indexation syntaxique
      • Niveau d’analyse :
        • passage de la forme à la grammaire : analyse à partir de la phrase, identification des relations entre les mots...
      • Principes :
        • identification des groupes nominaux, des expressions
        • repérage de la place des mots dans une phrase
        • reconnaissance des expressions contiguës ou disjointes :
          • dans l'expression : « Agence Française de presse », reconnaissance de l'expression « agence de presse »
      • Indexation syntaxique sur le web :
        • encore limitée ; sauf prise en compte de l’ordre des mots, assez répandue
        • reconnaissance de groupes nominaux
    • 37. 3.4 Typologie des moteurs selon l’indexation : l’indexation sémantique
      • Niveau d ’analyse :
        • reconnaissance des concepts, identification du sens des mots
      • Principes :
        • sémantique lexicale : analyse du sens des mots, reconnaissance des synonymes...
        • sémantique grammaticale : identification et analyse des relations sémantiques entre les mots, regroupement des termes de sens proche (classes sémantiques)…
        • utilisation des co-occurrences pour représentation des concepts
      • Assez rare sur le web, présente surtout sur des corpus limités :
        • Développement des classifications automatiques
        • Indexation automatique des matériaux de presse
        • Moteur sémantique : Portail Culture.fr , Collections
    • 38. 3.5 Présentation des résultats : moteurs visuels, cartographiques
      • Moteurs visuels :
        • SearchMe
          • Version de test d’un moteur de recherche visuel reposant sur la technologie flash
          • Visualisation directe par feuilletage des sites répondant à la requête (captures d’écran)
        • Aperçus graphiques sur Exalead
          • Vignettes et aperçus des sites en parallèle à la liste des résultats
      • Moteurs cartographiques :
        • Grokker
          • Regroupement visuel des résultats en un seul plan graphique
          • Catégories contextuelles
          • Liens entre les sites