SEO & LINGUISTIQUE STATISTIQUE
De vieux concepts trop méconnus

Gérard Salton :

- Modèle vectoriel « de Salton », années 70
L’analyse en « sac de mots »
Tokenization, normalisation, et
élimination des mots vides
Lemmatisation et racinisation
« Cosette était laide. Heureuse, elle eût
peut-être été jolie. Nous avons déjà
esquissé cett...
TF*IDF

=> ADIEU LA DENSITE DE MOTS CLES !
Identifier les termes importants :
première idée
Nombre d’occurrences du terme dans la page :

Extraction
Extraction

Extr...
Identifier les termes importants :
première idée
Problème : les documents ne contiennent pas le même
nombre de mots
Extrac...
Problème :
les mots n’ont pas la même fréquence d’apparition
dans la langue
Combien de pages contiennent le mot clé intern...
Vers un meilleur critère de poids
tf*idf
tf = fréquence des termes dans le document
idf = inverse du nombre de documents d...
Exemple de calcul sans et avec tf*idf
Internet

Internet
Internet

Globicéphale
1000 mots

1000 mots
Densité 3 pour mille
...
Exemple de calcul sans et avec tf*idf
Internet

Internet
Internet
1000 mots

Index de Google
50 milliards de pages
(?)

Gl...
Exemple de calcul sans et avec tf*idf
(simplifié)
Internet

Globicéphale

Internet

1000 mots

Internet
1000 mots

TF*iDF[...
La formule en résumé
Pourquoi il faut abandonner
la densité de mots clés
C’est un critère qui n’est plus
utilisé par les outils de recherche
Pe...
Le principe du Cosinus de Salton

Documents dans un espace à 3 dimensions :

Les documents proches dans l’espace
ont un co...
Les bases théoriques de l’alignement
sémantique

• L’alignement sémantique consiste à
changer le contenu textuel des pages...
La méthode allemande

• Les SEO allemands appellent tf*idf wdf*idf
mais c’est la même chose
– Wdf= « within document frequ...
Analyse avec tf*idf
Les limites de l’exercice

• Les poids de type « tf*idf » ne sont que
l’un des signaux exploités par Google
– Si la requêt...
Plus intéressant pour
« analyser » son texte : LSI / LDA

• Latent Semantic Indexing
• Analyse en composantes principales ...
Plus intéressant pour
« analyser » son texte : LSI / LDA
A quoi cela peut-il servir ?
• la comparaison de documents dans l...
Conclusion
Merci !
Upcoming SlideShare
Loading in...5
×

Petit déjeuner Search Foresight

354

Published on

SEO et statistique linguistique.
Les utilisations des outils de statistique linguistique dans les moteurs de recherche et leur intérêt pour le SEO

tf*idf, cosinus de salton...

Published in: Marketing
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
354
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Petit déjeuner Search Foresight

  1. 1. SEO & LINGUISTIQUE STATISTIQUE
  2. 2. De vieux concepts trop méconnus Gérard Salton : - Modèle vectoriel « de Salton », années 70
  3. 3. L’analyse en « sac de mots »
  4. 4. Tokenization, normalisation, et élimination des mots vides
  5. 5. Lemmatisation et racinisation « Cosette était laide. Heureuse, elle eût peut-être été jolie. Nous avons déjà esquissé cette petite figure sombre. Cosette était maigre et blême. » Racinisation (stemming)
  6. 6. TF*IDF => ADIEU LA DENSITE DE MOTS CLES !
  7. 7. Identifier les termes importants : première idée Nombre d’occurrences du terme dans la page : Extraction Extraction Extraction Extraction Poids = 1 Poids = 3
  8. 8. Identifier les termes importants : première idée Problème : les documents ne contiennent pas le même nombre de mots Extraction Extraction Extraction 100 mots Extraction 1000 mots Poids = 0,01 Poids = 0,003 Poids du terme = fréquence = « densité du mot clé » Critère de poids retenu : nombre d’occurrences divisé par le nombre de mots du document
  9. 9. Problème : les mots n’ont pas la même fréquence d’apparition dans la langue Combien de pages contiennent le mot clé internet d’après Google ? 1,5 milliards ! Combien de pages contiennent le mot clé globicéphale d’après Google ? 34000
  10. 10. Vers un meilleur critère de poids tf*idf tf = fréquence des termes dans le document idf = inverse du nombre de documents dans lequel le terme est présent
  11. 11. Exemple de calcul sans et avec tf*idf Internet Internet Internet Globicéphale 1000 mots 1000 mots Densité 3 pour mille Densité 1 pour mille
  12. 12. Exemple de calcul sans et avec tf*idf Internet Internet Internet 1000 mots Index de Google 50 milliards de pages (?) Globicéphale 1000 mots 50*10^9 pages DF[internet] = 1,5 x 10^9 / 50 x 10^9 = 0,03 DF[globicephale] = 3,4*10^4 / 50 x 10^9 = 6,8 x 10^-7
  13. 13. Exemple de calcul sans et avec tf*idf (simplifié) Internet Globicéphale Internet 1000 mots Internet 1000 mots TF*iDF[globicephale] = TF*iDF[internet] = 0,001/6,8 x 10^7= 1470! 0,003 / 0,03 = 0,1 1470 >>>> 0,1
  14. 14. La formule en résumé
  15. 15. Pourquoi il faut abandonner la densité de mots clés C’est un critère qui n’est plus utilisé par les outils de recherche Pertinent que pour les requêtes à un seul terme Induit le « keyword stuffing » facilement détectable
  16. 16. Le principe du Cosinus de Salton Documents dans un espace à 3 dimensions : Les documents proches dans l’espace ont un contenu similaire
  17. 17. Les bases théoriques de l’alignement sémantique • L’alignement sémantique consiste à changer le contenu textuel des pages pour les « orienter » comme la requête Alignement sémantique
  18. 18. La méthode allemande • Les SEO allemands appellent tf*idf wdf*idf mais c’est la même chose – Wdf= « within document frequency » • Objectif : trouver le « poids » idéal pour un mot clé pour être premier sur une requête donnée
  19. 19. Analyse avec tf*idf
  20. 20. Les limites de l’exercice • Les poids de type « tf*idf » ne sont que l’un des signaux exploités par Google – Si la requête n’est pas concurrentielle : ok – Si la requête est concurrentielle : travail pas rentable • Comment améliorer le poids sans détériorer la qualité du texte ? • L’approche en sac de mots est très dépassée : indexation de syntagmes, de concepts…
  21. 21. Plus intéressant pour « analyser » son texte : LSI / LDA • Latent Semantic Indexing • Analyse en composantes principales sur l’espace vectoriel de Salton • Met en évidence les corrélations de niveau 2, souvent liées à la proximité sémantique (mais pas toujours) • Intérêt pour le SEO : bof ! – Très difficile à manipuler pour les novices – Peut servir pour analyser des textes en masse en vue de retraitements
  22. 22. Plus intéressant pour « analyser » son texte : LSI / LDA A quoi cela peut-il servir ? • la comparaison de documents dans l'espace des concepts – classification et catégorisation de documents • la recherche de documents similaires entre différentes langues • la recherche de relations entre les termes – résolution de synonymie et de polysémie • étant donné une requête, traduire les termes de la requête dans l'espace des concepts, pour retrouver des documents liés sémantiquement – recherche d'information, expansion de requête – Et analyser ses pages dans le contexte Hummingbird !
  23. 23. Conclusion
  24. 24. Merci !
  1. ¿Le ha llamado la atención una diapositiva en particular?

    Recortar diapositivas es una manera útil de recopilar información importante para consultarla más tarde.

×