Your SlideShare is downloading. ×
0
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Petit déjeuner Search Foresight
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Petit déjeuner Search Foresight

296

Published on

SEO et statistique linguistique. …

SEO et statistique linguistique.
Les utilisations des outils de statistique linguistique dans les moteurs de recherche et leur intérêt pour le SEO

tf*idf, cosinus de salton...

Published in: Marketing
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
296
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. SEO & LINGUISTIQUE STATISTIQUE
  • 2. De vieux concepts trop méconnus Gérard Salton : - Modèle vectoriel « de Salton », années 70
  • 3. L’analyse en « sac de mots »
  • 4. Tokenization, normalisation, et élimination des mots vides
  • 5. Lemmatisation et racinisation « Cosette était laide. Heureuse, elle eût peut-être été jolie. Nous avons déjà esquissé cette petite figure sombre. Cosette était maigre et blême. » Racinisation (stemming)
  • 6. TF*IDF => ADIEU LA DENSITE DE MOTS CLES !
  • 7. Identifier les termes importants : première idée Nombre d’occurrences du terme dans la page : Extraction Extraction Extraction Extraction Poids = 1 Poids = 3
  • 8. Identifier les termes importants : première idée Problème : les documents ne contiennent pas le même nombre de mots Extraction Extraction Extraction 100 mots Extraction 1000 mots Poids = 0,01 Poids = 0,003 Poids du terme = fréquence = « densité du mot clé » Critère de poids retenu : nombre d’occurrences divisé par le nombre de mots du document
  • 9. Problème : les mots n’ont pas la même fréquence d’apparition dans la langue Combien de pages contiennent le mot clé internet d’après Google ? 1,5 milliards ! Combien de pages contiennent le mot clé globicéphale d’après Google ? 34000
  • 10. Vers un meilleur critère de poids tf*idf tf = fréquence des termes dans le document idf = inverse du nombre de documents dans lequel le terme est présent
  • 11. Exemple de calcul sans et avec tf*idf Internet Internet Internet Globicéphale 1000 mots 1000 mots Densité 3 pour mille Densité 1 pour mille
  • 12. Exemple de calcul sans et avec tf*idf Internet Internet Internet 1000 mots Index de Google 50 milliards de pages (?) Globicéphale 1000 mots 50*10^9 pages DF[internet] = 1,5 x 10^9 / 50 x 10^9 = 0,03 DF[globicephale] = 3,4*10^4 / 50 x 10^9 = 6,8 x 10^-7
  • 13. Exemple de calcul sans et avec tf*idf (simplifié) Internet Globicéphale Internet 1000 mots Internet 1000 mots TF*iDF[globicephale] = TF*iDF[internet] = 0,001/6,8 x 10^7= 1470! 0,003 / 0,03 = 0,1 1470 >>>> 0,1
  • 14. La formule en résumé
  • 15. Pourquoi il faut abandonner la densité de mots clés C’est un critère qui n’est plus utilisé par les outils de recherche Pertinent que pour les requêtes à un seul terme Induit le « keyword stuffing » facilement détectable
  • 16. Le principe du Cosinus de Salton Documents dans un espace à 3 dimensions : Les documents proches dans l’espace ont un contenu similaire
  • 17. Les bases théoriques de l’alignement sémantique • L’alignement sémantique consiste à changer le contenu textuel des pages pour les « orienter » comme la requête Alignement sémantique
  • 18. La méthode allemande • Les SEO allemands appellent tf*idf wdf*idf mais c’est la même chose – Wdf= « within document frequency » • Objectif : trouver le « poids » idéal pour un mot clé pour être premier sur une requête donnée
  • 19. Analyse avec tf*idf
  • 20. Les limites de l’exercice • Les poids de type « tf*idf » ne sont que l’un des signaux exploités par Google – Si la requête n’est pas concurrentielle : ok – Si la requête est concurrentielle : travail pas rentable • Comment améliorer le poids sans détériorer la qualité du texte ? • L’approche en sac de mots est très dépassée : indexation de syntagmes, de concepts…
  • 21. Plus intéressant pour « analyser » son texte : LSI / LDA • Latent Semantic Indexing • Analyse en composantes principales sur l’espace vectoriel de Salton • Met en évidence les corrélations de niveau 2, souvent liées à la proximité sémantique (mais pas toujours) • Intérêt pour le SEO : bof ! – Très difficile à manipuler pour les novices – Peut servir pour analyser des textes en masse en vue de retraitements
  • 22. Plus intéressant pour « analyser » son texte : LSI / LDA A quoi cela peut-il servir ? • la comparaison de documents dans l'espace des concepts – classification et catégorisation de documents • la recherche de documents similaires entre différentes langues • la recherche de relations entre les termes – résolution de synonymie et de polysémie • étant donné une requête, traduire les termes de la requête dans l'espace des concepts, pour retrouver des documents liés sémantiquement – recherche d'information, expansion de requête – Et analyser ses pages dans le contexte Hummingbird !
  • 23. Conclusion
  • 24. Merci !

×