Introduction à la Recherche d'information

5,521 views
5,302 views

Published on

Recherche d'information, Information Retrieval, Search, Indexing, Querying

Published in: Technology
0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
5,521
On SlideShare
0
From Embeds
0
Number of Embeds
80
Actions
Shares
0
Downloads
200
Comments
0
Likes
5
Embeds 0
No embeds

No notes for slide
  • un annuaire Web est un site classant de façon thématique les sites qu’il sélectionne lui même ou qui lui sont soumis. Des éditeurs analysent alors le contenu des pages et créent des résumés de leurs contenus dans le but d’orienter les visiteurs. Les annuaires proposent une recherche par catégories et sous-catégories. Il existe des milliers d’annuaires dits spécialisés ou généralistes (exemple : Dmoz ou Yahoo! Directory).
  • http://speechbot.research.compaq.com/ http://audiosurf.net http://www.altavista.com http://www.alltheweb.com
  • Introduction à la Recherche d'information

    1. 1. Introduction à la Recherche d’Information Saïd Radhouani Université de Genève 18 mai 2010
    2. 2. Définitions <ul><li>Recherche d’Information ( RI ) </li></ul><ul><li>Ensemble d’outils et techniques qui permettent de retrouver les documents contenant l’information pertinente à un besoin </li></ul><ul><li>Un Syst èm e de Recherche d’Information ( SRI ) </li></ul><ul><li>Permet de retrouver, à partir d'une base de documents, le ou les documents pertinents pour une requ êt e utilisateur </li></ul>Saïd Radhouani © 2010
    3. 3. Définitions <ul><li>Requ êt e : exprime le besoin d'information d'un utilisateur </li></ul><ul><li>Document : toute unité qui peut constituer une réponse à une requ êt e </li></ul><ul><li>B ase de documents : ensemble des documents disponibles </li></ul><ul><li>Pertinence : sur cette notion le système doit juger si un document doit êt re donné à l'utilisateur comme réponse ou non </li></ul>Saïd Radhouani © 2010
    4. 4. Approches de recherche sur le Web <ul><li>Basée sur la navigation </li></ul><ul><ul><li>Les outils dont le contenu est construit manuellement </li></ul></ul><ul><ul><ul><li>annuaires, catalogues ou répertoires organisés par thème </li></ul></ul></ul><ul><ul><ul><li>e x. Yahoo! Directory ( http://dir.yahoo.com ) , dmoz ( http://www.dmoz.org ), etc. </li></ul></ul></ul><ul><li>Basée sur l’interrogation </li></ul><ul><ul><li>Les outils dont le contenu est construit automatiquement </li></ul></ul><ul><ul><ul><li>moteurs de recherche </li></ul></ul></ul><ul><ul><ul><li>processus de recherche basé sur des requ êtes (ex. mots-clés) </li></ul></ul></ul><ul><ul><ul><li>e x. Google, Yahoo!, Bing, etc. </li></ul></ul></ul>Saïd Radhouani © 2010
    5. 5. Navigation - principe Saïd Radhouani © 2010 Web     thèmes art sport <ul><li>Collection de liens (vers des pages individuelles ou des sites Web entiers) organisée par thèmes (concepts) </li></ul>
    6. 6. Interrogation - Principe Saïd Radhouani © 2010 Documents Requête ? Correspondance ? Interrogation ? ?? Indexation ? Index ??
    7. 7. Processus de Recherche d’Information Saïd Radhouani © 2010 Serveurs HTTP Serveurs HTTP Serveur HTTP Client Navigateur Requête Réponse Moteur de Recherche Serveurs HTTP Interrogation indexation Documents Web d'origine index
    8. 8. Principales étapes <ul><li>Collecte des pages sur le Web </li></ul><ul><li>Indexation des pages </li></ul><ul><li>Stockage des adresses et d'une partie du contenu des pages </li></ul><ul><li>Réponse aux requêtes au moment de l’interrogation </li></ul><ul><ul><li>Partie informationnelle </li></ul></ul><ul><ul><li>Partie commerciale </li></ul></ul>Saïd Radhouani © 2010
    9. 9. Collecte des pages sur le Web <ul><li>Particularités du Web </li></ul><ul><ul><li>contenu des pages change régulièrement </li></ul></ul><ul><ul><li>plusieurs pages apparaissent et disparaissent </li></ul></ul><ul><li>Découverte dynamique des pages en utilisant des robots d’indexation (web crawler ou web spider) </li></ul><ul><li>Chaque moteur a son propre robot </li></ul><ul><ul><li>e x. AltaVista -> Scooter, Google -> Googlebot, Yahoo! -> Slurp </li></ul></ul>Saïd Radhouani © 2010
    10. 10. Robots - Principe <ul><li>Explorer le Web en partant de différentes pages et en suivant les liens hypertextes </li></ul><ul><li>Utiliser un ensemble d'URL de départ E </li></ul><ul><ul><ul><ul><li>accéder à une page p d'URL e dans E </li></ul></ul></ul></ul><ul><ul><ul><ul><li>retirer les balises HTML de p </li></ul></ul></ul></ul><ul><ul><ul><ul><li>extraire le contenu de p (générer son index) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>E = E Union cibles (p) </li></ul></ul></ul></ul><ul><ul><ul><ul><li>recommencer </li></ul></ul></ul></ul><ul><li>Condition d’arrêt </li></ul><ul><ul><li>tout le graphe (composantes connexes accessibles par E) </li></ul></ul><ul><ul><li>nombre de pages prédéfini </li></ul></ul><ul><ul><li>profondeur d’un site </li></ul></ul><ul><ul><li>pages de catégories/contenu prédéfini (filtrage) </li></ul></ul><ul><ul><li>... </li></ul></ul>Saïd Radhouani © 2010
    11. 11. Robots <ul><li>Faire &quot;le tour&quot; du Web est long </li></ul><ul><li>L'ensemble de départ E est donné manuellement (&quot;seed pages&quot;) </li></ul><ul><li>Quand on crée un nouveau site, il n’y a pas de liens qui pointent vers ce dernier </li></ul><ul><li>Pour se faire connaître des moteurs </li></ul><ul><ul><li>Soumettre l’adresse d’un nouveau site via le formulaire du moteur de recherche </li></ul></ul><ul><ul><li>Contacter les webmasters des sites déjà référencés pour qu’ils ajoutent un lien vers le nouveau site </li></ul></ul>Saïd Radhouani © 2010
    12. 12. Robots - Utilisation des balises <ul><li>Inclure des informations dans la partie <head> de la page HTML </li></ul><ul><li>Indiquer aux robots </li></ul><ul><ul><li>que certaines pages ne doivent pas être indexées </li></ul></ul><ul><ul><ul><li>Pages dont les données changent constamment (ex. prévision météo) </li></ul></ul></ul><ul><ul><li>un ensemble de mots-clés </li></ul></ul><ul><ul><li>une courte description de la page </li></ul></ul><ul><li>Exemples </li></ul><ul><ul><li><META NAME = &quot;ROBOTS&quot; CONTENT=&quot;NOINDEX, NOFOLLOW&quot;> : pour tous les robots </li></ul></ul><ul><ul><li><META NAME = &quot;GOOGLEBOT&quot; CONTENT = &quot;NOINDEX, NOFOLLOW&quot;> : pour un robot particulier (google) </li></ul></ul>Saïd Radhouani © 2010
    13. 13. Indexation - Pourquoi utiliser les index ? <ul><li>Imaginez un moteur de recherche qui ne dispose pas d’une base d’index </li></ul><ul><li>Pour chaque requ ête, il doit </li></ul><ul><ul><li>accéder au Web (faire un tour complet) </li></ul></ul><ul><ul><li>analyser les documents un par un </li></ul></ul><ul><ul><li>juger l’importance de chaque document par rapport à la requête en question </li></ul></ul><ul><ul><li>«  f abriquer &quot; la réponse en fonction des pertinences des documents </li></ul></ul><ul><ul><li>afficher le résultat </li></ul></ul><ul><li>=> une base d’index est indispensable </li></ul>Saïd Radhouani © 2010
    14. 14. Indexation <ul><li>Analyse du document et interprétation de son contenu </li></ul>Saïd Radhouani © 2010 Documents Indexation ? Collecte des documents Web Index (local)
    15. 15. Indexation <ul><li>Un index contient une &quot;interprétation&quot; du document au lieu du document entier </li></ul><ul><li>Il contient </li></ul><ul><ul><li>les termes représentatifs d’un document </li></ul></ul><ul><ul><li>les poids (l’importance) des termes dans chaque document </li></ul></ul><ul><li>Chaque moteur possède un index inverse </li></ul><ul><ul><li>transformation de </li></ul></ul><ul><ul><li>&quot;quels mots apparaissent dans la page ?&quot; </li></ul></ul><ul><ul><li>en </li></ul></ul><ul><ul><li>&quot;dans quelles pages (URL) apparaît le mot X?&quot; </li></ul></ul>Saïd Radhouani © 2010
    16. 16. Indexation <ul><li>Le niveau d’analyse du document est variable (dépend du moteur de recherche) </li></ul><ul><li>Indexation multi-niveaux (contenu et structure) </li></ul><ul><li>Certains systèmes lemmatisent les mots -> réduction des mots à leur racine </li></ul><ul><ul><li>formes d'un verbe regroupées à l'infinitif </li></ul></ul><ul><ul><li>mots au pluriel ramenés au singulier </li></ul></ul><ul><ul><li>etc. </li></ul></ul><ul><li>Certains systèmes ne gardent qu'une partie des termes d'un document (ex. les 100 &quot;meilleurs&quot; pour une page) </li></ul>Saïd Radhouani © 2010
    17. 17. Indexation <ul><li>Exemples d’éléments qui peuvent être inclus/exclus d’un index </li></ul><ul><ul><li>Mots vides (stop words) </li></ul></ul><ul><ul><ul><li>Le, la, de, à, of, a, the, on, etc. </li></ul></ul></ul><ul><ul><li>Mots protégés (protword) </li></ul></ul><ul><ul><ul><li>Noms propres, etc. </li></ul></ul></ul><ul><ul><li>Listes des liens entre pages (source, destination, ancre) </li></ul></ul><ul><ul><li>Structure du texte </li></ul></ul><ul><ul><ul><li>titre et sous-titres </li></ul></ul></ul><ul><ul><li>Apparence </li></ul></ul><ul><ul><ul><li>Texte en gras, Police de grande taille </li></ul></ul></ul><ul><ul><li>... </li></ul></ul>Saïd Radhouani © 2010
    18. 18. Indexation <ul><li>Les métadonnées </li></ul><ul><li>Description </li></ul><ul><ul><li>Résumé du contenu de la page </li></ul></ul><ul><ul><li>Certains moteurs présentent la description dans la liste des résultats (plus explicite qu’un extrait arbitraire de la page) </li></ul></ul><ul><ul><li><META NAME = &quot;description&quot; CONTENT = &quot;résumé&quot;> </li></ul></ul><ul><li>Keywords </li></ul><ul><ul><li>Identifie les mots-clés les plus importants </li></ul></ul><ul><ul><li>Utilisé par certains moteurs pour classer les résultats </li></ul></ul><ul><ul><li>Utile si certains mots-clés n’apparaissent pas dans le texte </li></ul></ul><ul><ul><li>Peuvent inclure des fautes de frappe/orthographe courantes </li></ul></ul><ul><ul><li><META NAME = &quot;keywords&quot; CONTENT = &quot;liste des mots-clés&quot;> </li></ul></ul>Saïd Radhouani © 2010
    19. 19. Interrogation Saïd Radhouani © 2010 Documents Indexation ? Collecte des documents Moteur de Recherche Interrogation ? Client Navigateur Requ ête Web Index (local)
    20. 20. Processus d’interrogation <ul><li>Questions - y a-t-il une différence entre : </li></ul><ul><ul><li>une requ ête en majuscule et une en minuscule (PARIS, Paris, paris, PaRis) ? </li></ul></ul><ul><ul><li>les mots singuliers et les mots pluriels (Recherche d’information, Recherche d’informations) ? </li></ul></ul><ul><ul><li>un verbe à l’infinitif et un verbe conjugué (trouver, trouve) ? </li></ul></ul><ul><li>=> Analyse des requêtes est nécessaire </li></ul>Saïd Radhouani © 2010
    21. 21. Processus d’interrogation <ul><li>Pour répondre à la requ ê te, il faut retrouver des documents </li></ul><ul><ul><li>O ù ? </li></ul></ul><ul><ul><li>Comment va-t-on évaluer les documents ? </li></ul></ul><ul><ul><li>Quels documents retourner à l’utilisateur ? </li></ul></ul><ul><li>=> Chercher dans l’index, les documents correspondants </li></ul><ul><li>=> Effectuer un calcul pour évaluer la pertinence des documents retrouvés, afin de les ordonner </li></ul>Saïd Radhouani © 2010
    22. 22. Processus d’interrogation <ul><li>Une fois les documents sont retrouvés </li></ul><ul><ul><li>Dans quel ordre va-t-on les afficher ? </li></ul></ul><ul><ul><li>Comment va-t-on les présenter à l’utilisateur ? </li></ul></ul><ul><ul><ul><li>les documents entiers ? </li></ul></ul></ul><ul><ul><ul><li>des extraits ? </li></ul></ul></ul><ul><ul><ul><li>des liens ? </li></ul></ul></ul><ul><li>=> Classer les documents dans un ordre (pertinence, chronologique, ...?) </li></ul><ul><li>=> Formater les résultats qui seront présentés à l’utilisateur </li></ul><ul><ul><li>titre du résultat </li></ul></ul><ul><ul><li>extrait du texte </li></ul></ul><ul><ul><li>éventuellement mise en évidence des termes de la requ ête dans l’extrait du texte </li></ul></ul><ul><ul><li>pour certains moteurs, recherche des publicités correspondantes aux termes de la requ ête </li></ul></ul><ul><ul><li>e tc. </li></ul></ul>Saïd Radhouani © 2010
    23. 23. Modèle de SRI Saïd Radhouani © 2010 Documents Requête « pollution de l’air par les moteurs diesels » Modèle interprétation {pollu air moteur diesel} indexation      correspondance
    24. 24. Modes d’interrogation <ul><li>Plusieurs modes d’interrogation </li></ul><ul><ul><li>Mode mixte : navigation dans un catalogue et recherche par mots-clés à un certain niveau du catalogue </li></ul></ul><ul><ul><li>Simple (avec des opérateurs booléens implicites) </li></ul></ul><ul><ul><li>Avec des opérateurs booléens explicites </li></ul></ul><ul><ul><li>Avancée (en précisant certaines caractéristiques physiques des documents recherchés) </li></ul></ul>Saïd Radhouani © 2010
    25. 25. Syntaxe des requ êtes <ul><li>Différente pour chaque outil -> consulter la rubrique d'aide de chaque moteur. ex. www.abondance.com </li></ul><ul><li>Caractéristiques de quelques moteurs : www.searchengineshowdown.com/features/ </li></ul><ul><li>Ordre des mots dans la requ ête (dans Google, résultats différents si ordre des mots inversé) – ex. </li></ul><ul><li>Opérateurs booléens (voir dans la suite) </li></ul>Saïd Radhouani © 2010
    26. 26. Syntaxe des requ êtes <ul><li>Troncature : un signe qui remplace une ou plusieurs lettres d'un mot (représenté par &quot;*&quot;) </li></ul><ul><ul><li>e x. http://www.exalead.com/search , www.google.com </li></ul></ul><ul><li>Expression exacte :   &quot;maladie de la vache folle&quot; </li></ul><ul><li>Casse des caractères - différences selon les moteurs : </li></ul><ul><ul><li>Prise en compte de la casse : recherches à l'identique => PARIS donnera PARIS </li></ul></ul><ul><ul><li>Non prise en compte de la casse : majuscules/minuscules indifférentes => Hugo, HUGO, hUGo donneront le même résultat </li></ul></ul>Saïd Radhouani © 2010
    27. 27. Syntaxe des requ êtes <ul><li>Recherche avancée </li></ul><ul><ul><li>Langue </li></ul></ul><ul><ul><li>format des fichiers </li></ul></ul><ul><ul><li>emplacement dans le document : (corps du texte, titre, liens, URL) </li></ul></ul><ul><ul><li>date de publication </li></ul></ul><ul><ul><li>... </li></ul></ul><ul><li>e x. Google </li></ul>Saïd Radhouani © 2010
    28. 28. Exemples de requ êtes booléennes <ul><li>A AND B </li></ul><ul><li>A OR B </li></ul><ul><li>A NOT B </li></ul>Saïd Radhouani © 2010
    29. 29. Opérateurs booléens <ul><li>L'opérateur implicite </li></ul><ul><ul><li>ET (AND) : livre électronique => documents parlant à la fois de livre et d'électronique </li></ul></ul><ul><ul><li>OU (OR) : livre électronique => documents parlant ou de livre ou d'électronique, ou des deux à la fois </li></ul></ul>Saïd Radhouani © 2010
    30. 30. Autres opérateurs <ul><li>Phrase exacte : &quot;Recherche d'Information&quot; </li></ul><ul><li>Terme exacte : +or </li></ul><ul><li>Exclure des termes: moteur de recherche –google </li></ul><ul><li>Recherche par proximité : Recherche NEXT d'Information </li></ul><ul><li>... </li></ul><ul><ul><li>e x. http://www.exalead.com/search </li></ul></ul>Saïd Radhouani © 2010
    31. 31. Calcul de la pertinence <ul><li>Pertinence : la notion centrale dans la RI </li></ul><ul><li>=> estimation du degré d'adéquation du document proposé par rapport à la requête </li></ul><ul><li>Chaque moteur utilise sa propre combinaison de facteurs pour calculer la pertinence </li></ul><ul><li>ex. TF*IDF (Term Frequency * Inverse Document Frequency) </li></ul><ul><ul><li>Plus le terme de la requête est fréquent dans le document, plus le document est pertinent </li></ul></ul><ul><ul><li>Plus le terme apparaît dans plusieurs documents, moins il est discriminent </li></ul></ul><ul><li>Plus des poids pour certains facteurs </li></ul><ul><ul><li>Utilisation des balises (titre,...) </li></ul></ul>Saïd Radhouani © 2010
    32. 32. Classement des documents retrouvés - Ranking <ul><li>Une fois les documents pertinents ont été retrouvés, dans quel ordre va-t-on les afficher ? </li></ul><ul><li>On utilise un algorithme de &quot;ranking&quot; pour calculer un score pour chaque document retrouvé </li></ul><ul><li>Ordonner les documents en fonction de leur score </li></ul><ul><li>Plusieurs stratégies, selon les systèmes </li></ul><ul><ul><li>D émo (Google vs. Yahoo!) </li></ul></ul>Saïd Radhouani © 2010
    33. 33. Ranking - principe et exemples <ul><li>Exemple de facteurs qui permettent de mesurer le score </li></ul><ul><ul><li>Nombre d'occurrences des termes de la requête retrouvées dans un document </li></ul></ul><ul><ul><li>Rareté des termes par rapport à l'ensemble des documents </li></ul></ul><ul><ul><li>La proximité entre les termes </li></ul></ul><ul><ul><li>La position des termes dans le document (début du document, titre, …) </li></ul></ul><ul><ul><li>Présence des termes dans les balise META </li></ul></ul><ul><ul><li>etc. </li></ul></ul>Saïd Radhouani © 2010
    34. 34. Ranking – exemple : PageRank <ul><li>PageRank - Google </li></ul><ul><ul><li>Basée sur la notion de propagation de popularité </li></ul></ul><ul><ul><li>Le principe est d’évaluer l’importance d’une page en fonction des pages pointant vers elle </li></ul></ul><ul><ul><li>Hypothèse : “ une page référencée par un grand nombre de [bonnes] pages est une bonne page ” </li></ul></ul><ul><ul><li>Analyse quantitative et qualitative de liens </li></ul></ul>Saïd Radhouani © 2010 Wikipedia
    35. 35. Ranking – exemple : PageRank <ul><li>Principaux critères du score d'une page [brevet Google] </li></ul><ul><ul><ul><li>liens entrants et sortants </li></ul></ul></ul><ul><ul><ul><li>ancres </li></ul></ul></ul><ul><ul><ul><li>trafic associé à la page </li></ul></ul></ul><ul><ul><ul><li>comportement de lecteurs </li></ul></ul></ul><ul><ul><ul><li>choix de la page dans les résultats </li></ul></ul></ul><ul><ul><ul><li>nom de domaine </li></ul></ul></ul><ul><ul><ul><li>hébergement </li></ul></ul></ul><ul><ul><ul><li>confiance : indice TrustRank </li></ul></ul></ul><ul><ul><li>Possibilité de “sanctionner” les campagnes massives de liens artificiels </li></ul></ul>Saïd Radhouani © 2010
    36. 36. Évaluation d’un SRI <ul><li>Académie vs. Industrie </li></ul><ul><li>Le but de la RI est de retrouver des documents pertinents pour une requ ête (c-à-d, utile à l’utilisateur) </li></ul><ul><li>La qualité du système est mesurée en comparant les réponses du système avec les réponses idéales que l’utilisateur espère recevoir </li></ul><ul><li>Une collection test </li></ul><ul><ul><li>un ensemble de documents </li></ul></ul><ul><ul><li>un ensemble de requ êtes </li></ul></ul><ul><ul><li>la liste des documents pertinents pour chaque requête </li></ul></ul>Saïd Radhouani © 2010
    37. 37. Évaluation d’un SRI <ul><li>Deux critères </li></ul><ul><ul><li>La Précision : la proportion de documents pertinents retrouvés parmi tous les documents retrouvés par le système </li></ul></ul><ul><ul><li>Précision = Nombre de documents pertinents retrouvés </li></ul></ul><ul><ul><ul><ul><ul><li> Nombre de documents retrouvés </li></ul></ul></ul></ul></ul><ul><ul><li>Le Rappel : la proportion de documents pertinents retrouvés parmi tous les documents pertinents dans la base </li></ul></ul><ul><ul><li>Rappel = Nombre de documents pertinents retrouvés </li></ul></ul><ul><ul><ul><ul><ul><li>Nombre de documents pertinents </li></ul></ul></ul></ul></ul>Saïd Radhouani © 2010
    38. 38. Google <ul><li>Par défaut, utilise l’opérateur AND entre les termes </li></ul><ul><li>Expressions mises entres guillemets </li></ul><ul><li>Exclusion avec le signe - </li></ul><ul><li>Possibilité d’utiliser OR </li></ul><ul><li>Ne tient pas compte de la casse </li></ul><ul><li>Ignore les accents, sauf si le terme est précédé d’un + </li></ul><ul><li>Pas de troncature </li></ul><ul><li>Ignore les mots outils en dehors des expressions ou s’ils sont précédés d’un + (ex. +le froid) </li></ul><ul><li>Recherche d’un terme ou de ses synonymes : ~terme (ex. Voiture ~automobile) </li></ul>Saïd Radhouani © 2010
    39. 39. Google <ul><li>Restreindre la recherche à un certain sous-domaine </li></ul><ul><ul><li>site:.ch (nom de domaine se terminant par .ch) </li></ul></ul><ul><ul><li>site:www.unige.ch (pages de l’Université de Genève) </li></ul></ul><ul><ul><li>-site: .com (exclusion de toutes les pages venant d’un site .com) </li></ul></ul><ul><ul><li>pour avoir la liste des pages indexées pour un site -kdlsjflasj site:nom_site (kdlsjflasj ou autre mot qui ne figure pas dans les pages du site en question) </li></ul></ul><ul><li>Position des termes dans le titre de la page ou dans l’URL </li></ul><ul><ul><li>intitle: / allintitle: / inurl: / allinurl: </li></ul></ul><ul><li>Tous les types de requêtes précédents peuvent être combinés </li></ul><ul><li>Liens pointant vers une page </li></ul><ul><ul><li>link:adresse de la page </li></ul></ul><ul><ul><li>link:cui.unige.ch </li></ul></ul><ul><li>Informations sur la page info:url </li></ul><ul><li>Définition d’un terme define:terme </li></ul>Saïd Radhouani © 2010
    40. 40. Variétés des moteurs de recherche <ul><li>Ils diffèrent les uns des autres suivant plusieurs points de vue </li></ul><ul><ul><li>Les types de ressources indexés : sites Web, news, ect. </li></ul></ul><ul><ul><li>Les zones géographiques couvertes, les domaines ... </li></ul></ul><ul><ul><li>Leur mode de recherche des pages à indexer </li></ul></ul><ul><ul><li>La partie des pages qu'ils indexent </li></ul></ul><ul><ul><li>Leur mode d'indexation </li></ul></ul><ul><ul><li>Les possibilités d'interrogation qu'ils offrent (opérateurs, etc.) </li></ul></ul><ul><li>Leurs performances diffèrent par </li></ul><ul><ul><li>Le nombre de ressources indexées ou la taille de la base de documents </li></ul></ul><ul><ul><li>La fréquence de la mise à jour </li></ul></ul><ul><ul><li>La rapidité des réponses aux requêtes </li></ul></ul><ul><ul><li>La qualité des réponses ? </li></ul></ul>Saïd Radhouani © 2010
    41. 41. Méta-moteur de recherche Saïd Radhouani © 2010 R 1 R 2 R 3 il récupère les résultats de ces systèmes il fusionne les résultats R il présente sa réponse Q 1 Q 2 Q 3 M 2 M 1 M 3 le Méta-moteur la traduit et la soumet à des moteurs de recherche (Altavista, Google, Bing, ...) Q l'utilisateur pose une requête
    42. 42. Méta-moteur de recherche <ul><li>Exprimer une requête dans l'ensemble des langages des moteurs de base </li></ul><ul><li>Fusionner des réponses qui ont des valeurs de pertinences différentes (seul l'ordre est accessible) </li></ul><ul><ul><li>Problèmes centraux </li></ul></ul><ul><ul><ul><li>Combien de documents extraire des listes ? </li></ul></ul></ul><ul><ul><ul><li>Quels documents sélectionner dans chaque liste ? </li></ul></ul></ul><ul><ul><ul><li>Quels critères (similarité, rang) de sélection dans chaque liste ? </li></ul></ul></ul><ul><ul><ul><li>Quelle stratégie de combinaison des listes ? </li></ul></ul></ul><ul><ul><li>Il n'y a pas nécessairement beaucoup de recouvrement entre les systèmes </li></ul></ul><ul><ul><li>Le temps de réponse est lié au plus lent des moteurs utilisés </li></ul></ul>Saïd Radhouani © 2010
    43. 43. Méta-moteur de recherche - Exemples <ul><li>http://clusty.com </li></ul><ul><li>http://www.ixquick.com </li></ul><ul><li>http://www.mamma.com/ </li></ul><ul><li>http://www.copernic.com/ </li></ul><ul><li>... </li></ul>Saïd Radhouani © 2010
    44. 44. Choix de l'outils de recherche <ul><li>En fonction du besoin </li></ul><ul><ul><li>Choisir la navigation si on a besoin d’une information à caractère général, mais de bonne qualité, et peu évolutive </li></ul></ul><ul><ul><ul><li>e x. initiation à un domaine </li></ul></ul></ul><ul><ul><ul><li>Point de départ d’une visite </li></ul></ul></ul><ul><ul><li>Choisir l’interrogation si le besoin est précis et si le fait de savoir que l’information n’existe pas est aussi important (le rappel est plus fort) </li></ul></ul><ul><ul><ul><li>e x. qui parle de telle société ? </li></ul></ul></ul><ul><ul><ul><li>une réponse à une question technique </li></ul></ul></ul>Saïd Radhouani © 2010
    45. 45. Pour utiliser un outil <ul><li>Si vous n'êtes pas encore familiarisé avec ce moteur, lire les instructions </li></ul><ul><li>Penser aux opérateurs implicites : OU, ET </li></ul><ul><li>Considérer l'ensemble des opérateurs, et des règles pour aider à la recherche </li></ul><ul><li>Quelle est la portée de l'outil : zone géographique, partie d'Internet concernée, centre d'intérêt </li></ul><ul><li>Les outils eux-mêmes changent : relire les instructions </li></ul><ul><li>De nouveaux outils apparaissent -> se tenir au courant </li></ul>Saïd Radhouani © 2010
    46. 46. Conseils pour la recherche <ul><li>Identifier l'objectif sous forme d'une phrase </li></ul><ul><ul><li>déterminer les termes les plus significatifs </li></ul></ul><ul><ul><li>trouver d'éventuels synonymes </li></ul></ul><ul><ul><li>penser aux termes ambigus </li></ul></ul><ul><ul><li>privilégier les mots rares ou inhabituels </li></ul></ul><ul><li>Penser aux interrogations en différentes langues </li></ul><ul><li>Il ne faut pas avoir le reflex d’utiliser les moteurs de recherche --> Penser aux sites de recherche spécialisés dont vous avez intérêt à conserver les adresses (ex. pages jaunes, cff, tpg, etc. ) </li></ul><ul><li>Procéder par itérations successives : Recommencer .... en raffinant la recherche </li></ul>Saïd Radhouani © 2010
    47. 47. Stratégie de reformulation de requ ête <ul><li>Problème : Trop de documents (courant sur le Web) </li></ul><ul><ul><li>Requête trop courte </li></ul></ul><ul><ul><li>Terme trop ambiguë (ex: charge) </li></ul></ul><ul><ul><li>Sujet trop vaste </li></ul></ul><ul><li>Solutions possibles </li></ul><ul><ul><li>Reformuler en remplaçant un terme générique par un ou plusieurs termes spécifiques : voiture -> porsche </li></ul></ul><ul><ul><li>Augmenter le nombre de termes </li></ul></ul><ul><ul><ul><li>(voiture -> voiture AND allemande) connectés par des AND </li></ul></ul></ul><ul><ul><li>En cas d'utilisation de OR, tenter de les remplacer par des AND (même si le sens est changé...) </li></ul></ul><ul><ul><li>Si le système le permet, mettre des phrases complètes : </li></ul></ul><ul><ul><ul><li>&quot;recherche d'information et de documents&quot; pour éviter &quot;recherche AND information AND document&quot; </li></ul></ul></ul><ul><ul><li>Utiliser des négations : &quot;voiture AND NOT Renault&quot; </li></ul></ul><ul><ul><li>Mettre des critères de distance: &quot;voiture NEAR louer&quot; </li></ul></ul>Saïd Radhouani © 2010
    48. 48. Stratégie de reformulation de requ ête <ul><li>Problème : Trop peu de documents (rare sur le Web) </li></ul><ul><ul><li>Pallier &quot; à la main &quot; les limitations de l’indexation </li></ul></ul><ul><ul><ul><li>maladie du cœur OR maladie cardiaque </li></ul></ul></ul><ul><ul><li>Utiliser des OR qui connectent des termes synonymes </li></ul></ul><ul><ul><ul><li>voiture OR automobile </li></ul></ul></ul><ul><ul><li>Diminuer le nombre de termes (les moins importants) </li></ul></ul><ul><li>Mauvaise qualité : problème de classement </li></ul><ul><ul><li>Choisir des termes synonymes moins ambigus </li></ul></ul>Saïd Radhouani © 2010
    49. 49. Autres axes de RI <ul><li>Recherche d’information multilingue </li></ul><ul><li>Recherche multimédia </li></ul><ul><ul><li>Images </li></ul></ul><ul><ul><ul><li>Google Image, Yahoo! Image, flickr, etc. </li></ul></ul></ul><ul><ul><li>Vidéo </li></ul></ul><ul><ul><ul><li>YouTube, DailyMotion, fooooo.com , etc. </li></ul></ul></ul><ul><ul><li>Audio </li></ul></ul><ul><ul><ul><li>music.yahoo.com , songza.org, playlist.com, etc. </li></ul></ul></ul>Saïd Radhouani © 2010
    50. 50. Nouveaux besoins <ul><li>Recherche par domaine </li></ul><ul><ul><li>emplois, immobilier, automobile,... </li></ul></ul><ul><li>Moteur de recherche vertical </li></ul><ul><ul><li>Besoin d’information précis </li></ul></ul><ul><ul><li>Vocabulaire spécifique </li></ul></ul><ul><ul><li>Nouvelles technique d’indexation </li></ul></ul><ul><ul><li>Nouveaux critères de recherche (prix, marque,...) </li></ul></ul><ul><li>Exemples </li></ul><ul><ul><li>Emplois – Simply Hired, indeed,... </li></ul></ul><ul><ul><li>Automobile – Vast, iseecars,... </li></ul></ul><ul><ul><li>Immobilier – Zillow, Koodya,... </li></ul></ul>Saïd Radhouani © 2010
    51. 51. Nouvelles sources d’information <ul><li>Réseaux sociaux et blogs </li></ul><ul><ul><li>Twitter, facebook, FriendFeed, etc. </li></ul></ul><ul><li>Recherche en temps réel (Real-time search) </li></ul><ul><ul><li>Nouveaux problèmes </li></ul></ul><ul><ul><ul><li>téléchargement – temps réel </li></ul></ul></ul><ul><ul><ul><li>indexation </li></ul></ul></ul><ul><ul><ul><li>ordonnancement - pertinence, popularité, ... </li></ul></ul></ul><ul><ul><li>Exemple: Wowd, Topsy, OneRiot, etc. </li></ul></ul>Saïd Radhouani © 2010
    52. 52. Référencement <ul><li>Objectif : être LA référence dans le domaine </li></ul><ul><li>Deux stratégies </li></ul><ul><ul><li>référencement naturel (organique) </li></ul></ul><ul><ul><ul><li>annuaires et moteurs de recherche </li></ul></ul></ul><ul><ul><li>référencement payant (liens sponsorisés) </li></ul></ul>Saïd Radhouani © 2010
    53. 53. Référencement naturel <ul><ul><li>Soumission manuelle de son URL aux annuaires et moteurs de recherche </li></ul></ul><ul><ul><li>Suivi de l’évolution de son classement sur les moteurs de recherche </li></ul></ul><ul><ul><li>Juger la qualité de son site (Indicateur : Page Rank) </li></ul></ul><ul><ul><li>paramètres pris en compte </li></ul></ul><ul><ul><ul><li>choix des mots-clés (ce que recherchent les utilisateurs) </li></ul></ul></ul><ul><ul><ul><li>mise à jour du contenu en fonction des besoins/recherches des utilisateurs </li></ul></ul></ul><ul><ul><ul><li>absence d’erreurs 404 et de redirections (HTTP) </li></ul></ul></ul><ul><ul><ul><li>formater correctement l'information (HTML) </li></ul></ul></ul><ul><ul><ul><li>qualité des liens référents </li></ul></ul></ul><ul><ul><ul><li>... </li></ul></ul></ul><ul><li>Tenir compte des concurrents </li></ul><ul><ul><li>positionner son site sur tous les sites contenant un lien référent (backlink) vers un concurrent. (link:http://nomdusite.ch sur Google) </li></ul></ul><ul><ul><li>utiliser les mots-clés utilisés par le concurrent </li></ul></ul><ul><ul><li>utiliser des mots-clés &quot;discriminants&quot; </li></ul></ul>Saïd Radhouani © 2010
    54. 54. Références <ul><li>Robots : http://www.robotstxt.org/ </li></ul><ul><li>Livres : http://www.emse.fr/~mbeig/IR/books.html </li></ul><ul><li>Outils : http://www.emse.fr/~mbeig/IR/tools.html </li></ul><ul><li>Cours : http://www.iro.umontreal.ca/~nie/IFT6255/ </li></ul><ul><li>Conférences : SIGIR, CIKM, ECIR, CIVR, AIRS, ICME, etc. </li></ul><ul><li>Campagne d’évaluation de SRI : TREC, CLEF, NTCIR </li></ul><ul><li>Wikipedia </li></ul>Saïd Radhouani © 2010

    ×