Your SlideShare is downloading. ×
Fonctionnement des Moteurs De Recherche
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Fonctionnement des Moteurs De Recherche

1,013
views

Published on


0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,013
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
16
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • Il est surtout question du rendu final à l’utilisateur, c’est un service qui en même temps apporte de choses -> qu’est ce que les gens cherchent mais en même temps, comment ils cherchent (spécifique d’abord, général ensuite (patate grenade (fruit) -> problème)
    Fournir des résultats c’est cool, mais qui décide de ce qu’est uen bonne query (concepteur <--> utilisateur)
  • Constellation, page rank, random surfer
    Les annuaires dmoz, yahoo
    Augmentation progressive avec les bonnes pratiques de construction de l’index mais aussi de compréhension des recherches utilisateurs
  • Problème des hastables (plus de m que de x) multiplie une entrée par une clé de hash avec une certaine taille et on retrouve les données
  • Problème des hastables (plus de m que de x) multiplie une entrée par une clé de hash avec une certaine taille et on retrouve les données
  • Graduate students at Stanford University, Larry Page and Sergey Brin, developed "backrub," a search engine that relied on a mathematical algorithm to rate the prominence of web pages. The number calculated by the algorithm, PageRank, is a function of the quantity and strength of inbound links.[5] PageRank estimates the likelihood that a given page will be reached by a web user who randomly surfs the web, and follows links from one page to another. In effect, this means that some links are stronger than others, as a higher PageRank page is more likely to be reached by the random surfer.
    Brin, Sergey and Page, Larry (1998). "The Anatomy of a Large-Scale Hypertextual Web Search Engine". Proceedings of the seventh international conference on World Wide Web. p. 107–117
  • A retenir PR toujours entre 0 et 1
    Somme pr(u) = 1
  • Le Browse Rank est donc un indice d'importance d'une page calculé à la fois à partir du maillage de liens mais aussi des clics sur ces liens, et du temps passé sur les pages d'arrivée :
    plus il y a d'internautes qui sont arrivés sur une page en ayant cliqué sur un lien, plus cette page est importante
    plus ces internautes sont restés longtemps sur cette page, plus elle est importante.
    Outre ces 2 innovations algorithmiques, les chercheurs disent que leur modélisation représente mieux la nature du web (que celle utilisée pour le calcul du PageRank).
  • Si le nombre de liens sur une page augmente plus vite que pour une page plus ancienne, cela donnera un meilleur score, mais cela peut aussi signaler un spamming.Si un document est plus récent que la moyenne des pages dans un résultat, on peut lui attribuer un meilleur score pour améliorer sa position afin de tenir compte de sa nouveauté.
    Le score peut être positif ou négatif selon ces changements.
    Si un document apparaît dans des requêtes sans rapports entre elles, cela signale un spam et le score est réduit.
    Apparition de backlink
    Si rangs haut malgré actualité et changement des autres, proba spam augmente
  • Transcript

    • 1. Phase 2 EDA : Exploration Moteurs de recherche et indicateurs
    • 2. Enjeux ‣ Construire le meilleur corpus possible ‣ Permettre une interrogation du corpus ‣ Fournir les résultats les plus pertinents possibles en un minimum de temps
    • 3. Comment atteindre cet objectif ? ‣ Approche 1 : topologique ‣ Approche 2 : sémantique ‣ Approche 3 : savant mélange
    • 4. Ranking Comment sont construits les indicateurs
    • 5. La liste inversé Doc1 : mot1 mot2 Doc2 : mot2 mot3 Doc3 : mot1 mot4 Mot1 : [Doc1 Doc3] Mot3 : [Doc2]
    • 6. La liste inversé
    • 7. From backrub to google La petite histoire du n°1 des moteurs de recherche
    • 8. The web creates new challenges for information retrieval. The amount of information on the web is growing rapidly, as well as the number of new users inexperienced in the art of web research. People are likely to surf the web using its link graph, often starting with high quality human maintained indices such as Yahoo! or with search engines. Human maintained lists cover popular topics effectively but are subjective, expensive to build and maintain, slow to improve, and cannot cover all esoteric topics. Automated search engines that rely on keyword matching usually return too many low quality matches. To make matters worse, some advertisers attempt to gain people's attention by taking measures meant to mislead automated search engines. We have built a large-scale search engine which addresses many of the problems of existing systems. It makes especially heavy use of the additional structure present in hypertext to provide much higher quality search results. We chose our system name, Google, because it is a common spelling of googol, or 10100 and fits well with our goal of building very large-scale search engines.
    • 9. Page Rank ou le surfeur aléatoire http://www.youtube.com/watch?v=H6QRv_bCzEI
    • 10. Page Rank ou le surfeur aléatoire Modélisation du comportement d’un internaute : 1. Prendre une page web au hasard 2. Prendre un nombre 0 < p < 1 3. Si p > c alors choisir une nouvelle page au hasard 4. Si p < c choisir un lien au hasard dans la page et le suivre La probabilité que cet internaute se trouve en une page donnée à un moment donné est égale au PageRank de cette page. Si le PageRank est fort alors la probabilité d’être visité est forte
    • 11. Page Rank ou le surfeur aléatoire PageRank : la vision classique v1 c*PR(v1) c*PR(v4)/3 v4 c*PR(v2) u v2 c*PR(v5) v5 c*PR(v3)/2 v3
    • 12. PageRank : la visionle surfeur Page Rank ou classique PageRank : la vision la vision classique PageRank : v1 aléatoire c*PR(v1) c*PR(v4)/3 classique v4 v1 c*PR(v1) c*PR(v4)/3 v4 c*PR(v2) v1 c*PR(v1) c*PR(v4)/3 v4 v2 u c*PR(v2) u c*PR(v5) v2 c*PR(v5) c*PR(v2) u v2 v5 c*PR(v5) c*PR(v3)/2 c*PR(v3)/2 v5 v3 v3 v5 c*PR(v3)/2 (1-c)/N v3 (1-c)/N (1-c)/N nitialisation : ∀u PR(u) = 1/N Initialisation : ∀u PR(u) = 1/N alcul it´ratif : e Calcul it´ratif : e (1 − c) PR(v ) PR(u) = PR(u) + c. − c) + c. = (1 PR(v ) N N v →u #liens(v ) #liens(v ) v →u
    • 13. Page Rank ou le surfeur aléatoire The web in 1839 y = y /2 + a /2 a = y /2 + m y/2 m = a /2 y Yahoo  y+a+m = 1 a/2  y = 2/5, a = 2/5, m = 1/5 y/2 m Amazon M’soft a/2 a m
    • 14. ∀u 0 < PageRank(u) < 1 Page Rank ou le surfeur PageRank(u) = 1 aléatoire Le PageRank est int´ressant car c’est une notion simple et e facile ` calculer a Relation au Toolbar PageRank (TPR) : 0 0 < PageRank < 0,8 0,8 < PR < 0,96 etc. ... 1 TPR = 1 TPR = 2 04/02/2009 SEO Campus 2009 : Pagerank et optimisation 5/2
    • 15. What now ? Comment sont construits les indicateurs
    • 16. Page rank et consors Pénurie d’informations : rétro-ingénierie, white paper, brevet... Nouveaux modèles : browser rank, user sensitive pagerank, etc.
    • 17. Page rank et consors ‣ Date du document ‣ Modification du contenu ‣ Analyse des requêtes et clics sur les résultats ‣ Critères des liens sur la page ‣ Texte des ancres ‣ Trafic ‣ Comportement des visiteurs ‣ Informations sur le nom de domaine ‣ Rangs précédents ‣ Bookmarks ‣ Mots uniques et ancres ‣ Liens non pertinents ‣ Sujet du document

    ×