SlideShare a Scribd company logo
1 of 17
Phase 2 EDA :
 Exploration
Moteurs de recherche et indicateurs
Enjeux

‣ Construire le meilleur corpus possible
‣ Permettre une interrogation du corpus
‣ Fournir les résultats les plus pertinents possibles
  en un minimum de temps
Comment atteindre cet
     objectif ?

‣ Approche 1 : topologique
‣ Approche 2 : sémantique
‣ Approche 3 : savant mélange
Ranking
Comment sont construits les indicateurs
La liste inversé
Doc1 : mot1 mot2
Doc2 : mot2 mot3
Doc3 : mot1 mot4


Mot1 : [Doc1 Doc3]
Mot3 : [Doc2]
La liste inversé
From backrub to google
 La petite histoire du n°1 des moteurs de recherche
The web creates new challenges for information retrieval. The amount of
  information on the web is growing rapidly, as well as the number of new
  users inexperienced in the art of web research.

People are likely to surf the web using its link graph, often starting with high
quality human maintained indices such as Yahoo! or with search engines. Human
maintained lists cover popular topics effectively but are subjective, expensive to
build and maintain, slow to improve, and cannot cover all esoteric topics.

Automated search engines that rely on keyword matching usually return too
many low quality matches. To make matters worse, some advertisers attempt to
gain people's attention by taking measures meant to mislead automated search
engines. We have built a large-scale search engine which addresses many of the
problems of existing systems. It makes especially heavy use of the additional
structure present in hypertext to provide much higher quality search results.

We chose our system name, Google, because it is a common spelling of
googol, or 10100 and fits well with our goal of building very large-scale search
engines.
Page Rank ou le surfeur
       aléatoire

http://www.youtube.com/watch?v=H6QRv_bCzEI
Page Rank ou le surfeur
            aléatoire
     Modélisation du comportement d’un internaute :

1.   Prendre une page web au hasard

2.   Prendre un nombre 0 < p < 1

3.   Si p > c alors choisir une nouvelle page au hasard

4.   Si p < c choisir un lien au hasard dans la page et le suivre


La probabilité que cet internaute se trouve en une page donnée à un
moment donné est égale au PageRank de cette page.

Si le PageRank est fort alors la probabilité d’être visité est forte
Page Rank ou le surfeur
       aléatoire
 PageRank : la vision classique


             v1     c*PR(v1)
                                     c*PR(v4)/3         v4

         c*PR(v2)                u
    v2                                       c*PR(v5)

                                                             v5
                    c*PR(v3)/2
             v3
PageRank : la visionle surfeur
         Page Rank ou        classique
               PageRank : la vision la vision
                                     classique
                   PageRank :
                         v1
                                       aléatoire
                                       c*PR(v1)
                                                                         c*PR(v4)/3
                                                                                                 classique
                                                                                                   v4

                                  v1      c*PR(v1)                 c*PR(v4)/3          v4
                   c*PR(v2)                          v1       c*PR(v1)
                                                                                                 c*PR(v4)/3         v4
              v2
                                                          u
                              c*PR(v2)                 u                            c*PR(v5)
                    v2                                                      c*PR(v5)
                                               c*PR(v2)                         u
                                      v2                                                                v5
                                                                                                         c*PR(v5)
                                    c*PR(v3)/2
                                        c*PR(v3)/2
                                                                                            v5
                         v3       v3
                                                                                                                         v5
                                                              c*PR(v3)/2
                                                      (1-c)/N
                                                     v3
                                                     (1-c)/N
                                                                           (1-c)/N
nitialisation : ∀u PR(u) = 1/N
              Initialisation : ∀u PR(u) = 1/N
 alcul it´ratif :
         e
             Calcul it´ratif :
                      e
                      (1 − c)            PR(v )
               PR(u) = PR(u) + c. − c) + c.
                              =
                                (1                 PR(v )
                         N         N
                                   v →u
                                        #liens(v )
                                                 #liens(v )                                 v →u
Page Rank ou le surfeur
       aléatoire
 The web in 1839

                                      y = y /2 + a /2
                                      a = y /2 + m
                       y/2
                                      m = a /2
          y   Yahoo

                                       y+a+m = 1
   a/2                                 y = 2/5, a = 2/5, m = 1/5
              y/2



                   m

 Amazon                      M’soft
               a/2
    a                        m
∀u 0 < PageRank(u) < 1
             Page Rank ou le surfeur
                      PageRank(u) = 1
                    aléatoire
      Le PageRank est int´ressant car c’est une notion simple et
                         e
      facile ` calculer
             a

      Relation au Toolbar PageRank (TPR) :


        0              0 < PageRank < 0,8                        0,8 < PR < 0,96
                                                                                   etc.   ... 1
                            TPR = 1                                  TPR = 2




04/02/2009                          SEO Campus 2009 : Pagerank et optimisation                    5/2
What now ?
Comment sont construits les indicateurs
Page rank et consors
Pénurie d’informations : rétro-ingénierie, white
paper, brevet...
Nouveaux modèles : browser rank, user sensitive
pagerank, etc.
Page rank et consors
‣   Date du document
‣   Modification du contenu
‣   Analyse des requêtes et clics sur les résultats
‣   Critères des liens sur la page
‣   Texte des ancres
‣   Trafic
‣   Comportement des visiteurs
‣   Informations sur le nom de domaine
‣   Rangs précédents
‣   Bookmarks
‣   Mots uniques et ancres
‣   Liens non pertinents
‣   Sujet du document

More Related Content

Viewers also liked

Viewers also liked (14)

Le conditionnel passé
Le conditionnel passéLe conditionnel passé
Le conditionnel passé
 
Cursos e learning
Cursos e learningCursos e learning
Cursos e learning
 
Sindrome de-down
Sindrome de-downSindrome de-down
Sindrome de-down
 
Décret n°2002 788-du_3_mai_2002
Décret n°2002 788-du_3_mai_2002Décret n°2002 788-du_3_mai_2002
Décret n°2002 788-du_3_mai_2002
 
Selfpublishing und Barrierefreiheit - eine Odyssee?!
Selfpublishing und Barrierefreiheit - eine Odyssee?!Selfpublishing und Barrierefreiheit - eine Odyssee?!
Selfpublishing und Barrierefreiheit - eine Odyssee?!
 
Présentation 4e aaa gpte
Présentation 4e aaa gptePrésentation 4e aaa gpte
Présentation 4e aaa gpte
 
Remerciements Lionel Texier
Remerciements Lionel TexierRemerciements Lionel Texier
Remerciements Lionel Texier
 
Jel atelier
Jel atelierJel atelier
Jel atelier
 
Estadísticas y Geolocalización - 2012
Estadísticas y Geolocalización - 2012Estadísticas y Geolocalización - 2012
Estadísticas y Geolocalización - 2012
 
Screw it, let’s do it — Praxisbeispiele für Mobile Shops und Facebook Einsatz
Screw it, let’s do it — Praxisbeispiele für Mobile Shops und Facebook EinsatzScrew it, let’s do it — Praxisbeispiele für Mobile Shops und Facebook Einsatz
Screw it, let’s do it — Praxisbeispiele für Mobile Shops und Facebook Einsatz
 
Diagramas de Actividad
Diagramas de ActividadDiagramas de Actividad
Diagramas de Actividad
 
Publication annonce légale dissolution
Publication annonce légale dissolutionPublication annonce légale dissolution
Publication annonce légale dissolution
 
Mfc
MfcMfc
Mfc
 
Camtasia getting started guide
Camtasia getting started guideCamtasia getting started guide
Camtasia getting started guide
 

More from Fabien Pfaender

Geography et Visualisations
Geography et VisualisationsGeography et Visualisations
Geography et VisualisationsFabien Pfaender
 
Historique des dispositifs de découverte de connaissances
Historique des dispositifs de découverte de connaissancesHistorique des dispositifs de découverte de connaissances
Historique des dispositifs de découverte de connaissancesFabien Pfaender
 
Analyse Exploratoire de Données
Analyse Exploratoire de DonnéesAnalyse Exploratoire de Données
Analyse Exploratoire de DonnéesFabien Pfaender
 
Presentation Enjeux Perspective
Presentation Enjeux PerspectivePresentation Enjeux Perspective
Presentation Enjeux PerspectiveFabien Pfaender
 

More from Fabien Pfaender (10)

Geography et Visualisations
Geography et VisualisationsGeography et Visualisations
Geography et Visualisations
 
Web sémantique
Web sémantiqueWeb sémantique
Web sémantique
 
Sémiologie Graphique
Sémiologie GraphiqueSémiologie Graphique
Sémiologie Graphique
 
Historique des dispositifs de découverte de connaissances
Historique des dispositifs de découverte de connaissancesHistorique des dispositifs de découverte de connaissances
Historique des dispositifs de découverte de connaissances
 
Analyse Exploratoire de Données
Analyse Exploratoire de DonnéesAnalyse Exploratoire de Données
Analyse Exploratoire de Données
 
Captation Ic05 A09
Captation Ic05 A09Captation Ic05 A09
Captation Ic05 A09
 
Science Des Réseaux
Science Des RéseauxScience Des Réseaux
Science Des Réseaux
 
Enda And Web Science
Enda And Web ScienceEnda And Web Science
Enda And Web Science
 
Presentation Enjeux Perspective
Presentation Enjeux PerspectivePresentation Enjeux Perspective
Presentation Enjeux Perspective
 
Rochebrune 2007
Rochebrune 2007Rochebrune 2007
Rochebrune 2007
 

Fonctionnement des Moteurs De Recherche

  • 1. Phase 2 EDA : Exploration Moteurs de recherche et indicateurs
  • 2. Enjeux ‣ Construire le meilleur corpus possible ‣ Permettre une interrogation du corpus ‣ Fournir les résultats les plus pertinents possibles en un minimum de temps
  • 3. Comment atteindre cet objectif ? ‣ Approche 1 : topologique ‣ Approche 2 : sémantique ‣ Approche 3 : savant mélange
  • 5. La liste inversé Doc1 : mot1 mot2 Doc2 : mot2 mot3 Doc3 : mot1 mot4 Mot1 : [Doc1 Doc3] Mot3 : [Doc2]
  • 7. From backrub to google La petite histoire du n°1 des moteurs de recherche
  • 8. The web creates new challenges for information retrieval. The amount of information on the web is growing rapidly, as well as the number of new users inexperienced in the art of web research. People are likely to surf the web using its link graph, often starting with high quality human maintained indices such as Yahoo! or with search engines. Human maintained lists cover popular topics effectively but are subjective, expensive to build and maintain, slow to improve, and cannot cover all esoteric topics. Automated search engines that rely on keyword matching usually return too many low quality matches. To make matters worse, some advertisers attempt to gain people's attention by taking measures meant to mislead automated search engines. We have built a large-scale search engine which addresses many of the problems of existing systems. It makes especially heavy use of the additional structure present in hypertext to provide much higher quality search results. We chose our system name, Google, because it is a common spelling of googol, or 10100 and fits well with our goal of building very large-scale search engines.
  • 9. Page Rank ou le surfeur aléatoire http://www.youtube.com/watch?v=H6QRv_bCzEI
  • 10. Page Rank ou le surfeur aléatoire Modélisation du comportement d’un internaute : 1. Prendre une page web au hasard 2. Prendre un nombre 0 < p < 1 3. Si p > c alors choisir une nouvelle page au hasard 4. Si p < c choisir un lien au hasard dans la page et le suivre La probabilité que cet internaute se trouve en une page donnée à un moment donné est égale au PageRank de cette page. Si le PageRank est fort alors la probabilité d’être visité est forte
  • 11. Page Rank ou le surfeur aléatoire PageRank : la vision classique v1 c*PR(v1) c*PR(v4)/3 v4 c*PR(v2) u v2 c*PR(v5) v5 c*PR(v3)/2 v3
  • 12. PageRank : la visionle surfeur Page Rank ou classique PageRank : la vision la vision classique PageRank : v1 aléatoire c*PR(v1) c*PR(v4)/3 classique v4 v1 c*PR(v1) c*PR(v4)/3 v4 c*PR(v2) v1 c*PR(v1) c*PR(v4)/3 v4 v2 u c*PR(v2) u c*PR(v5) v2 c*PR(v5) c*PR(v2) u v2 v5 c*PR(v5) c*PR(v3)/2 c*PR(v3)/2 v5 v3 v3 v5 c*PR(v3)/2 (1-c)/N v3 (1-c)/N (1-c)/N nitialisation : ∀u PR(u) = 1/N Initialisation : ∀u PR(u) = 1/N alcul it´ratif : e Calcul it´ratif : e (1 − c) PR(v ) PR(u) = PR(u) + c. − c) + c. = (1 PR(v ) N N v →u #liens(v ) #liens(v ) v →u
  • 13. Page Rank ou le surfeur aléatoire The web in 1839 y = y /2 + a /2 a = y /2 + m y/2 m = a /2 y Yahoo  y+a+m = 1 a/2  y = 2/5, a = 2/5, m = 1/5 y/2 m Amazon M’soft a/2 a m
  • 14. ∀u 0 < PageRank(u) < 1 Page Rank ou le surfeur PageRank(u) = 1 aléatoire Le PageRank est int´ressant car c’est une notion simple et e facile ` calculer a Relation au Toolbar PageRank (TPR) : 0 0 < PageRank < 0,8 0,8 < PR < 0,96 etc. ... 1 TPR = 1 TPR = 2 04/02/2009 SEO Campus 2009 : Pagerank et optimisation 5/2
  • 15. What now ? Comment sont construits les indicateurs
  • 16. Page rank et consors Pénurie d’informations : rétro-ingénierie, white paper, brevet... Nouveaux modèles : browser rank, user sensitive pagerank, etc.
  • 17. Page rank et consors ‣ Date du document ‣ Modification du contenu ‣ Analyse des requêtes et clics sur les résultats ‣ Critères des liens sur la page ‣ Texte des ancres ‣ Trafic ‣ Comportement des visiteurs ‣ Informations sur le nom de domaine ‣ Rangs précédents ‣ Bookmarks ‣ Mots uniques et ancres ‣ Liens non pertinents ‣ Sujet du document

Editor's Notes

  1. Il est surtout question du rendu final &amp;#xE0; l&amp;#x2019;utilisateur, c&amp;#x2019;est un service qui en m&amp;#xEA;me temps apporte de choses -&gt; qu&amp;#x2019;est ce que les gens cherchent mais en m&amp;#xEA;me temps, comment ils cherchent (sp&amp;#xE9;cifique d&amp;#x2019;abord, g&amp;#xE9;n&amp;#xE9;ral ensuite (patate grenade (fruit) -&gt; probl&amp;#xE8;me) Fournir des r&amp;#xE9;sultats c&amp;#x2019;est cool, mais qui d&amp;#xE9;cide de ce qu&amp;#x2019;est uen bonne query (concepteur &lt;--&gt; utilisateur)
  2. Constellation, page rank, random surfer Les annuaires dmoz, yahoo Augmentation progressive avec les bonnes pratiques de construction de l&amp;#x2019;index mais aussi de compr&amp;#xE9;hension des recherches utilisateurs
  3. Probl&amp;#xE8;me des hastables (plus de m que de x) multiplie une entr&amp;#xE9;e par une cl&amp;#xE9; de hash avec une certaine taille et on retrouve les donn&amp;#xE9;es
  4. Probl&amp;#xE8;me des hastables (plus de m que de x) multiplie une entr&amp;#xE9;e par une cl&amp;#xE9; de hash avec une certaine taille et on retrouve les donn&amp;#xE9;es
  5. Graduate students at Stanford University, Larry Page and Sergey Brin, developed &quot;backrub,&quot; a search engine that relied on a mathematical algorithm to rate the prominence of web pages. The number calculated by the algorithm, PageRank, is a function of the quantity and strength of inbound links.[5] PageRank estimates the likelihood that a given page will be reached by a web user who randomly surfs the web, and follows links from one page to another. In effect, this means that some links are stronger than others, as a higher PageRank page is more likely to be reached by the random surfer. Brin, Sergey and Page, Larry (1998). &quot;The Anatomy of a Large-Scale Hypertextual Web Search Engine&quot;. Proceedings of the seventh international conference on World Wide Web. p. 107&amp;#x2013;117
  6. A retenir PR toujours entre 0 et 1 Somme pr(u) = 1
  7. Le Browse Rank est donc un indice d&apos;importance d&apos;une page calcul&amp;#xE9; &amp;#xE0; la fois &amp;#xE0; partir du maillage de liens mais aussi des clics sur ces liens, et du temps pass&amp;#xE9; sur les pages d&apos;arriv&amp;#xE9;e&amp;#xA0;: plus il y a d&apos;internautes qui sont arriv&amp;#xE9;s sur une page en ayant cliqu&amp;#xE9; sur un lien, plus cette page est importante plus ces internautes sont rest&amp;#xE9;s longtemps sur cette page, plus elle est importante. Outre ces 2 innovations algorithmiques, les chercheurs disent que leur mod&amp;#xE9;lisation repr&amp;#xE9;sente mieux la nature du web (que celle utilis&amp;#xE9;e pour le calcul du PageRank).
  8. Si le nombre de liens sur une page augmente plus vite que pour une page plus ancienne, cela donnera un meilleur score, mais cela peut aussi signaler un spamming.Si un document est plus r&amp;#xE9;cent que la moyenne des pages dans un r&amp;#xE9;sultat, on peut lui attribuer un meilleur score pour am&amp;#xE9;liorer sa position afin de tenir compte de sa nouveaut&amp;#xE9;. Le score peut &amp;#xEA;tre positif ou n&amp;#xE9;gatif selon ces changements. Si un document appara&amp;#xEE;t dans des requ&amp;#xEA;tes sans rapports entre elles, cela signale un spam et le score est r&amp;#xE9;duit. Apparition de backlink Si rangs haut malgr&amp;#xE9; actualit&amp;#xE9; et changement des autres, proba spam augmente