Comment un moteur détermine
la pertinence d’une page?
Le cosinus de Salton
ou
modèle vectoriel.

Synthèse d’articles par L...
Moteur = 2 tâches distinctes
• Analyse pertinence = par rapport à une
requête -> modèle vectoriel
• Classement des pages =...
• Le modèle vectoriel initié par Gérard Salton
(1927-1995, professeur à l’Université de Cornell, pionnier de l’Information...
Quoi ?
• Comment classer des documents (indexation)
• Comment retrouver des documents
(recherche d ’information)
• En fonc...
L’idée ?
• Représenter, dans le même espace
vectoriel, les requêtes et les documents.
• Documents et requêtes sont exprimé...
• Plus l’angle entre les vecteurs document et requête
est petit (cosinus élevé) plus le document est
pertinent par rapport...
N dimension

• En réalité, il y a autant que dimension que de
termes.
SEO Camp’us 2009/ Philippe YONNET
Exemple…
Prenons les textes suivants :
• Texte 1 : la loutre est dans la rivière
Texte 2 : la loutre est avec les loutres ...
Itératif
•
•
•
•
•

On rédige un texte.
On le soumet à Google.
On mesure le positionnement. (un bon outil SEO Soft)
On amé...
Optimiser, c’est…
• Permettre de trouver le bon « angle de
Salton »
Upcoming SlideShare
Loading in …5
×

Mesure de pertinence par le Cosinus de Salton

1,105 views
925 views

Published on

Le cosinus de Salton est un modèle vectoriel pour mesurer la pertinence des termes d'un documents face à une requête de recherche.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,105
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
13
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Mesure de pertinence par le Cosinus de Salton

  1. 1. Comment un moteur détermine la pertinence d’une page? Le cosinus de Salton ou modèle vectoriel. Synthèse d’articles par Laurent Hermann || citinet.fr 2014
  2. 2. Moteur = 2 tâches distinctes • Analyse pertinence = par rapport à une requête -> modèle vectoriel • Classement des pages = Page Rank
  3. 3. • Le modèle vectoriel initié par Gérard Salton (1927-1995, professeur à l’Université de Cornell, pionnier de l’Information Retrieval) • Les fréquences d’occurrences des termes d’un texte donnent une bonne représentation du contenu du texte. • De calculer le cosinus de l'angle formé par les vecteurs représentant le document et la requête.
  4. 4. Quoi ? • Comment classer des documents (indexation) • Comment retrouver des documents (recherche d ’information) • En fonction des mots qu’ils contiennent • Orienter au maximum le vecteur de la page optimisée dans le même sens que le vecteur de la requête ciblée.
  5. 5. L’idée ? • Représenter, dans le même espace vectoriel, les requêtes et les documents. • Documents et requêtes sont exprimés comme des vecteurs de termes. • Estimer l’affinité en mesurant l’angle entre 2 vecteurs (document, requête)
  6. 6. • Plus l’angle entre les vecteurs document et requête est petit (cosinus élevé) plus le document est pertinent par rapport à la requête. • Le cosinus de Salton varie entre 0 et 1. Christian Jacquemin (Université Paris 11 et LIMSI-CNRS)
  7. 7. N dimension • En réalité, il y a autant que dimension que de termes.
  8. 8. SEO Camp’us 2009/ Philippe YONNET
  9. 9. Exemple… Prenons les textes suivants : • Texte 1 : la loutre est dans la rivière Texte 2 : la loutre est avec les loutres dans la rivière On va lemmatiser tout ça (sans prendre en compte les verbes) : • Texte 1 : loutre, rivière Texte 2 : loutre, loutre, rivière On va ensuite représenter chacun de ces textes par un vecteur dans l’espace des fréquences des mots rivière, loutre (dans cet ordre). •Texte 1 : (1/2, 1/2 ) •Texte 2 : (1/3, 2/3) Ce qui donne graphiquement : Sylvain Peyronnet 2009 http://www.peyronnet.eu/blog/modele-vectoriel-et-cosinus-de-salton/
  10. 10. Itératif • • • • • On rédige un texte. On le soumet à Google. On mesure le positionnement. (un bon outil SEO Soft) On améliore le texte. On réitère.
  11. 11. Optimiser, c’est… • Permettre de trouver le bon « angle de Salton »

×