0
UTILISER UN CRAWLER POUR LE SEO
Philippe YONNET
Agence Search Foresight – My Media
Search Foresight
Foresight : définition
• “an act or the power of foreseeing” : prescience
• “provident care” : prudence e...
Philippe YONNET – Directeur de Search
Foresight
•

Philippe YONNET, 46 ans, a aujourd’hui dix années d’expérience
en référ...
C’est quoi un crawler ?
• Deux modes : aspirateur / spider

– Aspirateur : on lui fournit une liste d’urls, que le robot
«...
URLs crawled
and parsed
Unseen Web

Seed
pages

URLs frontier

Web
5
LES USAGES CLASSIQUES
La détection des liens brisés

• Détection des pages 404
La détection des redirections

• Détection des erreurs 30x
• Objectif : diminuer le volume de 301
• Eliminer les 302
Détection des erreurs

• Détection des erreurs avec Botify
UTILISATION AVANCÉE
Tester les performances du site

• Le temps de téléchargement du code a
une influence sur l’exploration de Google
Tester les performances du site

• Google webmaster tools
ne fournit que des temps
« moyens »
• Un crawler permettra de
co...
Détection des duplicate title et descr

• Exemple avec Screaming Frog
Vérification des plans de taggage
Vérification du duplicate

• Ex avec Botify
Vérification de l’efficacité
de la mise en cache
• Extraction de patterns :

– timestamp de génération de la page vs horod...
Analyse de la profondeur
• Profondeur : nb de clics nécessaires pour atteindre une
page en cliquant sur des liens
– Exempl...
Pourquoi mesurer la profondeur ?
Plus une url est profonde, moins elle reçoit de linkjuice
Plus une url est profonde, moin...
Le rythme de crawl sur Google est
fonction du PR (et d’autres facteurs)
Les prérequis pour le crawler

• Respect du robots.txt
• Gestion du nofollow sur les liens
• Gestion du nofollow dans les ...
Analyse des link rel=canonical
Analyse des liens sortants

• Ex : botify
Diagnostic complet

• Ex avec Botify (tableau de bord)
L’analyse combinée crawl+logs
• Urls crawlables => données par votre crawler
• Urls crawlées par Googlebot => découvertes
...
Principe de l’analyse des deux versions

Urls crawlées
par
Google, non
présentes sur le
site :
URLS
parasites, à
bloquer d...
L’analyse du maillage interne
• Objectif : mesurer les ratios
– Nb de liens entrants vs liens sortants
– Nb de liens sorta...
EXEMPLES DE CRAWLERS UTILES
Xenu Link Sleuth

• http://home.snafu.de/tilman/xenulink.html
Link Examiner
•

http://www.analogx.com/contents/download/Network/lnkexam/Freewa
re.htm
Siteliner

• http://www.siteliner.com
Screaming Frog
• http://www.screamingfrog.co.uk/seo-spider/
Lucène (java)
• https://lucene.apache.org/
Nutch (java)
• https://nutch.apache.org/
Scrapy (python)

• http://scrapy.org/
80legs

• http://80legs.com/
Deepcrawl

• http://deepcrawl.co.uk/
Botify

• https://fr.botify.com/
DES QUESTIONS ?
Merci !
• Me contacter :

Philippe YONNET
Directeur Général de l’agence Search Foresight
Groupe My Media
55 rue Anatole Fr...
Upcoming SlideShare
Loading in...5
×

Utiliser un crawler pour le seo

3,316

Published on

Conférence au Tuniseo 2014.

Qu'est-ce qu'un crawler ? Comment utiliser cet outil pour auditer un site web ? Quelle utilisation en faire pour le SEO ?

Published in: Marketing
1 Comment
4 Likes
Statistics
Notes
  • Excellent présentation, comme toujours. Bravo Philippe, et merci !
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
No Downloads
Views
Total Views
3,316
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
33
Comments
1
Likes
4
Embeds 0
No embeds

No notes for slide

Transcript of "Utiliser un crawler pour le seo"

  1. 1. UTILISER UN CRAWLER POUR LE SEO Philippe YONNET Agence Search Foresight – My Media
  2. 2. Search Foresight Foresight : définition • “an act or the power of foreseeing” : prescience • “provident care” : prudence et prévoyance • “an act of looking forward” : prospective
  3. 3. Philippe YONNET – Directeur de Search Foresight • Philippe YONNET, 46 ans, a aujourd’hui dix années d’expérience en référencement naturel. • Il a conseillé plus d’une centaine de sites, dont un grand nombre de sites à forte audience (Pages Jaunes, Rue du Commerce, Pixmania, Dailymotion, AuFeminin, LeGuide, Twenga, Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…) • Il a été notamment Directeur métier puis Directeur Général Adjoint d’Aposition-Isobar de 2007 à 2010. Il est ensuite revenu chez l'annonceur, pour travailler à Londres et New-York pendant deux ans, en tant que Directeur SEO International de Vivastreet, puis en tant que Directeur SEO International et Directeur Merchandising du comparateur de prix Twenga. • Philippe YONNET est le président fondateur de l’association SEO Camp, qui regroupe les professionnels du référencement des pays francophones. – Il est un contributeur régulier de la lettre professionnelle d’Abondance, et a contribué à plusieurs chapitres du livre « réussir son référencement » chez Eyrolles – Il a fondé le principal évènement sur le référencement en France, les SEO Camp’us – Il a créé la certification CESEO, qui valide les connaissances des experts en SEO
  4. 4. C’est quoi un crawler ? • Deux modes : aspirateur / spider – Aspirateur : on lui fournit une liste d’urls, que le robot « aspire » (télécharge) pour alimenter une base de données – Spider : on fournit une url de départ au robot, qui analyse le contenu de la page web, trouve les liens à l’intérieur, les stocke dans une file d’attente. Puis il télécharge les nouvelles urls trouvées, trouve d’autres liens à l’intérieur et ainsi de suite… • On appelle le processus suivi par le spider le « crawl », et on appelle aussi les spiders des « crawlers »
  5. 5. URLs crawled and parsed Unseen Web Seed pages URLs frontier Web 5
  6. 6. LES USAGES CLASSIQUES
  7. 7. La détection des liens brisés • Détection des pages 404
  8. 8. La détection des redirections • Détection des erreurs 30x • Objectif : diminuer le volume de 301 • Eliminer les 302
  9. 9. Détection des erreurs • Détection des erreurs avec Botify
  10. 10. UTILISATION AVANCÉE
  11. 11. Tester les performances du site • Le temps de téléchargement du code a une influence sur l’exploration de Google
  12. 12. Tester les performances du site • Google webmaster tools ne fournit que des temps « moyens » • Un crawler permettra de comprendre quelles sont les « scripts » lents et d’identifier les causes de ralentissement
  13. 13. Détection des duplicate title et descr • Exemple avec Screaming Frog
  14. 14. Vérification des plans de taggage
  15. 15. Vérification du duplicate • Ex avec Botify
  16. 16. Vérification de l’efficacité de la mise en cache • Extraction de patterns : – timestamp de génération de la page vs horodatage du téléchargement de la page – Test de requêtes conditionnelles (If modified since et renvoi de codes 304) – Etc.
  17. 17. Analyse de la profondeur • Profondeur : nb de clics nécessaires pour atteindre une page en cliquant sur des liens – Exemple ci-dessous : Botify
  18. 18. Pourquoi mesurer la profondeur ? Plus une url est profonde, moins elle reçoit de linkjuice Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée 140000 120000 100000 80000 nb urls crawlables non crawlées nb urls crawlées 60000 40000 20000 0 Prof Prof Prof Prof Prof Prof Prof Prof Prof 0 1 2 3 4 5 6 7 8
  19. 19. Le rythme de crawl sur Google est fonction du PR (et d’autres facteurs)
  20. 20. Les prérequis pour le crawler • Respect du robots.txt • Gestion du nofollow sur les liens • Gestion du nofollow dans les balises meta • Gestion du x-robots-tag dans les en-têtes http:// • Gestion des canonical comme des redirections
  21. 21. Analyse des link rel=canonical
  22. 22. Analyse des liens sortants • Ex : botify
  23. 23. Diagnostic complet • Ex avec Botify (tableau de bord)
  24. 24. L’analyse combinée crawl+logs • Urls crawlables => données par votre crawler • Urls crawlées par Googlebot => découvertes dans les logs serveur (User Agent : googlebot) Votre version Version vue par Googlebot Home Home Cat 2 Cat 3 P1 P1 P1 P2 P2 P2 P3 P3 Cat 1 Cat 2 P1 Cat 1 P1 P2 P1bis P3 P2 P2bis P3 P4 P4 Cat2bis Cat 3 Des urls en moins Des urls en +
  25. 25. Principe de l’analyse des deux versions Urls crawlées par Google, non présentes sur le site : URLS parasites, à bloquer dans le robots.txt Urls présentes sur le site, non explorées par Google : identifier la cause Urls OK présentes et crawlées
  26. 26. L’analyse du maillage interne • Objectif : mesurer les ratios – Nb de liens entrants vs liens sortants – Nb de liens sortants internes vs externes • Indegree = nombre de liens entrants • La hiérarchie des indegrees doit être conforme à l’importance des pages
  27. 27. EXEMPLES DE CRAWLERS UTILES
  28. 28. Xenu Link Sleuth • http://home.snafu.de/tilman/xenulink.html
  29. 29. Link Examiner • http://www.analogx.com/contents/download/Network/lnkexam/Freewa re.htm
  30. 30. Siteliner • http://www.siteliner.com
  31. 31. Screaming Frog • http://www.screamingfrog.co.uk/seo-spider/
  32. 32. Lucène (java) • https://lucene.apache.org/
  33. 33. Nutch (java) • https://nutch.apache.org/
  34. 34. Scrapy (python) • http://scrapy.org/
  35. 35. 80legs • http://80legs.com/
  36. 36. Deepcrawl • http://deepcrawl.co.uk/
  37. 37. Botify • https://fr.botify.com/
  38. 38. DES QUESTIONS ?
  39. 39. Merci ! • Me contacter : Philippe YONNET Directeur Général de l’agence Search Foresight Groupe My Media 55 rue Anatole France – 92300 LEVALLOIS PERRET Philippe.yonnet@search-foresight.com Tél : 01 74 18 29 40 Président de l’association SEO Camp 24 avenue Ledru-Rollin 75012 PARIS Philippe.yonnet@seo-camp.org http://www.seo-camp.org
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×