Moteurs de recherche : sortir de Google

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

0 comments

Post a comment

    Post a comment
    Embed Video
    Edit your comment Cancel

    5 Favorites

    Moteurs de recherche : sortir de Google - Presentation Transcript

    1. Approfondissement des moteurs de recherche : “SORTIR” DE GOOGLE ...
        • Stage URFIST de Rennes
        • 18 novembre 2008
        • Marie-Laure Malingre
        • Alexandre Serres
    2. PRESENTATION du stage
      • Intro. : pourquoi sortir de Google ?
      • 1/ Des ressources pour se former et s’informer
      • 2/ Fonctionnement et typologies des moteurs de recherche
      • 3/ Explorations de différents types de moteurs
    3. En introduction
      • 4 raisons (au moins !) de sortir de Google :
        • Briser le monopole « googléen » :
          • Cf le Baromètre de S2M
        • Résister à la « googlisation » des usages :
          • Nécessaire diversification des usages, des pratiques, des outils…
        • Adapter les outils aux besoins :
          • Intérêt des outils spécialisés
        • Suivre l’innovation technique des moteurs :
          • Nombreux outils très innovants
    4. 1/ Des ressources pour se former et s’informer
      • Difficultés de la veille sur les outils de recherche :
        • Rapidité des innovations
        • Surabondance des sources
      • Mais remèdes dans les outils eux-mêmes :
        • Fils RSS, portail Netvibes, blogs…
      • Deux ressources de l’URFIST de Rennes
        • Sélection de ressources sur les outils de recherche
        • Le portail Netvibes de l’ URFIST de Rennes
    5. 2.1 Fonctionnement des moteurs de recherche Source : R. Viseur, CETIC
    6. 2.1 Fonctionnement… : la collecte des données
      • Le crawl = parcours de la toile par les moteurs pour aspirer les pages de sites
      • Plusieurs modalités d’exploration du web :
        • soumission manuelle par les webmestres, référencement payant
        • sélection des meilleurs sites
        • explorations aléatoires
      • Etendue, profondeur de la collecte :
        • Parcours des liens (horizontaux/ verticaux)
        • différences entre les moteurs dans l’exploration des sites
        • importance de la taille des fichiers : nbre d’octets pris en compte
      • Paramétrages du robot :
        • Nature des fichiers collectés : recul du « web invisible »
        • Délai de prise en charge (soumission manuelle) : de 1 jour à 6 semaines
        • Rythme de surveillance : « rafraîchissement » de l’index (de 2 à 8 semaines)
          • Variable en fonction du type d’information
      • Evolution : du batch crawling au crawler incrémental
    7. 2.1 Fonctionnement… : l’indexation des données
      • Deux grandes méthodes d'analyse dans l'indexation automatisée :
        • analyse linguistique : fondée sur la reconnaissance des mots
        • analyse statistique : fondée sur la fréquence des mots
      • 4 niveaux d'analyse linguistique du texte intégral:
        • niveau morphologique : reconnaissance du mot
        • niveau lexical : réduction du mot à sa forme canonique > lemmatisation
        • niveau syntaxique : utilisation de la grammaire
        • niveau sémantique : reconnaissance des concepts
    8. 2.1 Fonctionnement… : l’indexation des données
      • Principale méthode d’indexation automatisée : traitement statistique des mots
      • Indexation fondée sur calcul de fréquence d’apparition des mots dans un texte : les occurrences
      • Postulat :
        • si l'indice de fréquence d'un mot est supérieur à son indice moyen, il doit s'agir d'un mot-clé pertinent, décrivant bien le sujet du texte.
      • Principale méthode d’indexation sur le web
    9. 2.1 Fonctionnement… : la gestion des requêtes et des résultats
      • Partie visible du moteur de recherche ; trois grandes fonctions :
          • gestion des requêtes :
            • fonctions de recherche en mode simple et avancé, différentes options de filtrage, affinement...
          • gestion des résultats :
            • quels critères de classement ? question des critères de pertinence
          • gestion de la présentation des résultats :
            • Listes, cartographie, aperçu graphique…
    10. 2.1 Fonctionnement… : la gestion des requêtes
      • Fonction la plus répandue : nombreuses possibilités de filtrage
        • géographique du web : mondial, francophone
        • linguistique : choix de la langue des ressources
        • des types de ressources : images, audio…
        • des ressources internet : web, forum, messagerie, weblogs
        • des formats : HTML, PDF, DOC, PPT, XLS, RTF…
        • des dates : nombreuses options
        • des champs : titre, URL, host, domaine…
        • thématique : choix du domaine de recherche
    11. 2.1 Fonctionnement… : la gestion des résultats
      • Enjeux du «  relevance ranking  », du classement des résultats selon leur pertinence
      • Trois grandes méthodes de classement :
        • tri par indice de pertinence : calculs statistiques sur la fréquence des termes…
        • tri par popularité : indice de popularité
        • tri par catégorisation : calcul dynamique de catégories
    12. 2.1 Fonctionnement… la gestion des résultats : l’indice de pertinence
      • Principes :
        • classement des résultats fondé sur la fréquence d’apparition et la localisation des termes de la requête dans une page web
        • affichage des résultats à partir du calcul d’un score pour chaque réponse :
          • Ex. : Requête sur le marché des DVD en France : +marché +DVD +France
          • > retourne les documents contenant tous les mots de la requête
          • >> documents contenant le plus de fois les mots de la requête classés en premier
      • Utilisation :
        • première méthode de classement utilisée sur le web, la plus répandue ;
      • Problèmes :
        • détournement par le spamdexing
    13. 2.1 Fonctionnement… la gestion des résultats : l’indice de popularité
      • Principes, origines :
        • Utilisation de la nature hypertextuelle du web : prise en compte des liens entre sites, considérés comme des liens de parenté sémantique
        • calcul de la notoriété d’un site en fonction du nombre de liens pointant vers le site
      • Utilisation :
        • indice de popularité lancé par Google en 98
          • originalité et succès de Google et de son PageRank
      • Avantages de l’indice de popularité :
        • renforcement de la pertinence
        • réduction du spamdexing
    14. 2.1 Fonctionnement… la gestion des résultats : la catégorisation automatique
      • Technologies plus complexes ; domaine d’innovations avancées des moteurs :
        • cf Exalead , Grokker , certains métamoteurs
      • Principes :
        • organisation en temps réel d’un lot de résultats pour donner possibilité d’affiner ou étendre la requête
        • répartition des documents dans des catégories
      • Intérêt pour la recherche :
          • aide à la sélection d’un mot-résultat
          • aide à l’élimination des corrélations inintéressantes,
          • suggestion d’idées et de pistes nouvelles
      •  enjeu essentiel : mise en ordre du « chaos informationnel
    15. 2.2 Typologies des moteurs de recherche
      • Difficultés des typologies
      • Quatre grandes catégories de critères :
        • L’offre des ressources :
          • Moteurs généralistes / spécialisés
            • Diversité des spécialisations
        • L’implication des internautes :
          • Moteurs participatifs :
            • collaboratifs, personnalisables…
        • Le mode d’indexation des données :
          • Moteurs morpho-syntaxiques, sémantiques…
        • La présentation des résultats :
          • Moteurs linéaires, visuels, cartographiques…
      • Imbrication des critères
    16. 2.2 Typologies des moteurs de recherche : l’offre des ressources
      • Critère : type de ressources collectées
      • Distinction principale :
        • Moteurs généralistes : G., Yahoo, Exalead, Ask, Live Search…
          • caractéristique historique des grands moteurs : collecte et indexation de tous les types de ressources
        • Moteurs spécialisés :
          • Tendance lourde des moteurs :
            • Modules spécialisés à l’intérieur des moteurs généralistes
          • Infinité des types de spécialisations
          • Explosion du nombre d’outils
    17. 2.2 Typologies… L’offre des ressources : diversité des spécialisations
      • Choix retenu pour l’exploration :
        • 3 critères de spécialisations :
          • Selon les ressources internet :
            • Moteurs de blogs, de forums, de listes de diffusion, de FAQ, de wikis, de fils RSS…
          • Selon la nature du contenu :
            • Moteurs scientifiques, d’actualité, de personnes, de produits…
          • Selon la nature du média :
            • Moteurs d’images, de vidéos, de podcasts, de photos..
      • Autres critères possibles : langue, géographie, domaine thématique…
    18. 2.2 Typologies… : l’implication des internautes
      • Difficultés de caractérisation du critère, très récent :
        • Intégration des aspects « web 2.0 » dans les moteurs
      • Critère principal : aspect « social » des moteurs de recherche
        • Degré, nature, modalités… d’implication des internautes dans le moteur de recherche
      • Trois types présentés :
        • Moteurs collaboratifs : Wikia
        • Moteurs personnalisables : Yahoo Search Building
        • Moteurs « sociaux » : Baagz
      • Tendance de développement des moteurs très importante : enjeux économiques, image des outils…
    19. 2.2 Typologies… : l’indexation des données
      • Critère : mode d’indexation des données
      • Typologie possible selon les différents niveaux d’indexation linguistique :
        • Moteurs d’indexation :
          • Morphologique
          • Lexicale
          • Syntaxique
          • Sémantique
      • Typologie difficile à utiliser en pratique
      • Imbrication des modalités d’indexation
      • Enjeux des moteurs sémantiques
    20. 2.2 Typologies… : la présentation des résultats
      • Innovations les plus spectaculaires à venir : les interfaces, la présentation des données
      • Distinctions possibles :
        • Moteurs linéaires, classiques
        • Moteurs cartographiques, à clusters
        • Moteurs visuels
        • Moteurs parlants ?
    21. 3/ Explorations des différentes catégories de moteurs
      • Des moteurs pour trouver d’autres moteurs
      • 3.1 Moteurs généralistes :
        • Exalead, Yahoo
      • 3.2 Moteurs « participatifs » :
        • Yahoo Search Building, Wikia, Baagz
      • 3.3 Moteurs spécialisés :
        • Selon différents types de ressources
      • 3.4 Moteurs sémantiques
      • 3.5 Moteurs visuels, cartographiques…
    22. 3.1 Exploration des moteurs : Les moteurs généralistes Exalead
        • Créé par François Bourdoncle (ingénieur de l’Ecole des Mines) en 1999.
        • Moteur très innovant
        • Entreprise française en plein développement
          • Plateforme technologique et de services pour entreprises :
            • 2ème place en France
          • Moteur grand public
        • Orientation technique :
          • aider l'usager dans la recherche d'information
          • Intégration de la serendipité
        • Exalead partie prenante du projet Quaero
    23. 3.1 Exploration des moteurs : Les moteurs généralistes Exalead
        • Un moteur innovant dans le traitement et la présentation des résultats :
          • Processus de catégorisation (a posteriori)
          • Analyse statistico-sémantique des pages de résultats, conduisant à l’identification des mots et expressions les plus fréquents
          • Aperçu graphique du contenu de la page / prévisualisation
          • Nombreuses possibilités d'affinement de la requête :
            • Rubriques associées
            • Limitation par zones géographiques
            • Différents types de fichiers
            • Recherches spécialisées : actualité, RSS...
    24. 3.1 Exploration des moteurs : Les moteurs généralistes Exalead
      • Récentes évolutions :
            • Recherche dans les blogs et forums..
            • Filtre “visages” (module Images) : partenariat avec LTU Technologies
            • Partenariat avec l’INIST
            • Nouveau module de recherche sur Wikipedia
            • Module de méta-recherche de vidéos
            • Intégration des tags dans la recherche
            • Création d'un blog (ExaBlog) de l'entreprise
            • Création de Baagz, moteur social
      • Exalead comme alternative à Google ?
    25. 3.1 Exploration des moteurs : Les moteurs généralistes Yahoo Search
      • Moteur né en février 2004, après l’annuaire et le portail
      • Fait partie du trio de tête des moteurs de recherche
        • 15 à 20 milliards de pages indexées (cf. O. Andrieu)
        • Concurrence permanente avec Google et Microsoft
        • Propositions récentes de rachat par Microsoft
        • … mais Yahoo rejoint en mars le projet Open Social de Google
      • Politique de développement de niches de recherche
      • Yahoo Search et le web 2.0
        • personnalisation et partage avec “Mon Web 2.0”
        • recherche sur les flux RSS
    26. 3.1 Exploration des moteurs : Les moteurs généralistes Yahoo Search
      • Quelques développements récents de Yahoo :
        • Intégration des résultats de del.icio.us
        • Intégration de Flickr pour la recherche d’images
        • Lancement de Yahoo Live en févier 2008 , service de diffusion de vidéos concurrent de YouTube
        • Re-lancement de Yahoo Vidéo (« user generated content » + contenu exclusif)
        • Prototype de Yahoo! NewsGlobe (service d’informations locales)
        • Assistant de recherche Yahoo! France
        • Enrichissement des notices de Yahoo! Recherche par les webmestres
        • Préparation pour le dernier trimestre 2008 du lancement de OneConnect
    27. 3.2 Moteurs «participatifs » : moteurs personnalisables
      • Des moteurs “sur mesure” / recherche verticale
        • Choix par l’internaute du périmètre des recherches : ensemble donné de sites web, thématique précise, type d’informations
        • Compte gratuit
        • Système de veille
      • Concurrence des “3 grands” dans ce domaine :
        • Google CSE : Google Custom Search Engine
        • Live Search : Live Search macros
        • Yahoo! Search Builder :
          • Search Monkey : pour les développeurs http:// tools.search.yahoo.com/newsearch/open.html
        • Les Swickis d’Eurekster : http:// www.eurekster.com /
        • Rollyo : http:// www.rollyo.com /
    28. 3.2 Moteurs «participatifs » : moteurs « contributifs »
      • Principes :
        • Enrichissement de la recherche par les internautes
        • Exemples :
          • Wikia Search :
            • lancé le 7 janvier 2008 par Jimmy Wales (Wikia Inc.)
            • Alternative communautaire aux moteurs généralistes
            • Sur le modèle de Wikipédia
            • Introduit la pondération des documents web par des internautes qualifiés et la méthode d’indexation ouverte (par le biais de mini-articles)
          • Yoono
            • Basé sur les recommandations des internautes
    29. 3.2 Moteurs «participatifs » : moteurs « sociaux » et collaboratifs
      • Exemple de Baagz :
        • Lancé par Exalead en octobre 2007
      • Principes :
        • Concept du « petit sac » d’informations, du bureau en ligne…
        • Mixte de moteur de recherche (Exalead), de portail de flux RSS et de réseau social
        • Technologies web 2.0 : Ajax
      • Utilisations :
        • Partage de ressources
        • Création d’espaces personnels et/ou publics autour de centres d’intérêt
      • Continuum des espaces informationnels :
        • Sphère privée : fichiers du disque dur
        • Web
        • Réseaux sociaux
    30. 3.3 Moteurs spécialisés : selon les ressources internet
      • Pour trouver ou chercher dans :
      • Des listes de diffusion  : Francopholistes
      • Des forums  : Yahoo Groups
      • Des FAQ  : QueryCat
      • Des blogs  : Technorati , Sphere
      • Des wikis  : Qwika  
      • Des fils RSS  : RSSfeeds
      • Des réseaux sociaux  : YoName
      • Des plates-formes de partage de signets  : Thagoo  
      • Pour chercher dans les ressources web 2.0 :
      • Un métamoteur de fils RSS  : MetaRSS
    31. 3.3 Moteurs spécialisés : selon la nature du contenu
      • Pour trouver :
      • Des informations d’actualité (dépêches, articles…) :
        • Wikio
      • Des informations, des documents scientifiques :
        • Scirus , In-Extenso.org…
      • Des informations sur les entreprises :
        • Accoona
      • Des informations sur les produits :
        • Kelkoo
      • Des informations sur des individus :
        • Spock , 123People
      • Des offres d’emploi :
        • Moovement.fr
      • Des sites, des villes, des organisations géolocalisées :
        • Geolocalisation
    32. 3.3 Moteurs spécialisés : selon la nature du « média »
      • Pour trouver :
      • Des images :
        • Les modules images des moteurs : Exalead Images , Yahoo Images …
        • Picsearch
      • Des vidéos :
        • Modules vidéos des moteurs généralistes : Exalead Vidéos
        • Blinkx
          • Recherche en texte intégral sur des émissions de télé et de radio grâce à un système de reconnaissance vocale
      • Des podcasts :
        • Casteropod :
          • Exemple de podcast de formation
      • Des musiques :
        • Seeqpod
    33. 3.4 Typologie des moteurs selon l’indexation
      • Importance de la question de l’indexation sur le web
      • Multiples facettes de l’indexation :
        • Indexation linguistique, le TAL :
          • Différents niveaux d’indexation linguistique
        • Indexation sociale :
          • Tags du web 2.0
        • Indexation sémantique :
          • Ontologies, web sémantique
    34. 3.4 Typologie des moteurs selon l’indexation : l’indexation morphologique
      • Niveau d ’analyse :
        • reconnaissance de la forme des mots
      • Principes :
        • Segmentation du texte en unités élémentaires : mots (chaînes de caractères)
      • Limites :
        • index volumineux
        • ordre des mots non pris en compte
        • indexation des différentes flexions d’un mot : verbes, pluriel/singulier…
        • analyse de mots isolés, pas de prise en compte des expressions :
          • « pomme de terre » = pomme, de, terre
      • Principal niveau d’indexation sur le web
    35. 3.4 Typologie des moteurs selon l’indexation : l’indexation lexicale
      • Objet : prise en compte des variations morphologiques des mots :
        • la conjugaison, le genre, le nombre des mots
      • Principe de la lemmatisation (normalisation) :
        • réduction des mots à leur forme canonique, à leur racine :
          • formes d'un verbe regroupées à l'infinitif
          • mots au pluriel ramenés au singulier... : amiraux > amiral + amiraux
        • Objectif : diminution des index
      • Mieux développée aujourd’hui sur le web :
        • lemmatisation sur plusieurs moteurs (Google, Exalead…) accès aux variations morphologiques des mots
        • correction orthographique : Culture.fr
    36. 3.4 Typologie des moteurs selon l’indexation : l’indexation syntaxique
      • Niveau d’analyse :
        • passage de la forme à la grammaire : analyse à partir de la phrase, identification des relations entre les mots...
      • Principes :
        • identification des groupes nominaux, des expressions
        • repérage de la place des mots dans une phrase
        • reconnaissance des expressions contiguës ou disjointes :
          • dans l'expression : « Agence Française de presse », reconnaissance de l'expression « agence de presse »
      • Indexation syntaxique sur le web :
        • encore limitée ; sauf prise en compte de l’ordre des mots, assez répandue
        • reconnaissance de groupes nominaux
    37. 3.4 Typologie des moteurs selon l’indexation : l’indexation sémantique
      • Niveau d ’analyse :
        • reconnaissance des concepts, identification du sens des mots
      • Principes :
        • sémantique lexicale : analyse du sens des mots, reconnaissance des synonymes...
        • sémantique grammaticale : identification et analyse des relations sémantiques entre les mots, regroupement des termes de sens proche (classes sémantiques)…
        • utilisation des co-occurrences pour représentation des concepts
      • Assez rare sur le web, présente surtout sur des corpus limités :
        • Développement des classifications automatiques
        • Indexation automatique des matériaux de presse
        • Moteur sémantique : Portail Culture.fr , Collections
    38. 3.5 Présentation des résultats : moteurs visuels, cartographiques
      • Moteurs visuels :
        • SearchMe
          • Version de test d’un moteur de recherche visuel reposant sur la technologie flash
          • Visualisation directe par feuilletage des sites répondant à la requête (captures d’écran)
        • Aperçus graphiques sur Exalead
          • Vignettes et aperçus des sites en parallèle à la liste des résultats
      • Moteurs cartographiques :
        • Grokker
          • Regroupement visuel des résultats en un seul plan graphique
          • Catégories contextuelles
          • Liens entre les sites
    SlideShare Zeitgeist 2009

    + Aref JDEYAref JDEY Nominate

    custom

    2093 views, 5 favs, 9 embeds more stats

    More info about this document

    © All Rights Reserved

    Go to text version

    • Total Views 2093
      • 1758 on SlideShare
      • 335 from embeds
    • Comments 0
    • Favorites 5
    • Downloads 53
    Most viewed embeds
    • 204 views on http://www.demainlaveille.fr
    • 82 views on http://motrech.blogspot.com
    • 24 views on http://business-commando.com
    • 12 views on http://tat-ie.blogspot.com
    • 4 views on http://www.journal-du-referencement.com

    more

    All embeds
    • 204 views on http://www.demainlaveille.fr
    • 82 views on http://motrech.blogspot.com
    • 24 views on http://business-commando.com
    • 12 views on http://tat-ie.blogspot.com
    • 4 views on http://www.journal-du-referencement.com
    • 4 views on http://www.motrech.com
    • 2 views on http://apprentieweb.blogspot.com
    • 2 views on http://www.blogger.com
    • 1 views on http://209.85.135.132

    less

    Flagged as inappropriate Flag as inappropriate
    Flag as inappropriate

    Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

    Cancel
    File a copyright complaint
    Having problems? Go to our helpdesk?

    Categories