Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Budget de crawl et SEO - Tout ce que vous devez savoir

2,944 views

Published on

Retour sur la présentation d'Erlé Alberton, Customer Success Manager @OnCrawl, au SEOCAMP'us de Lyon le 21 avril 2017.
Au programme : présentation du concept de budget de crawl, bonnes pratiques pour l'optimiser, erreurs à éviter et la présentation d'un cas pratique.

Published in: Internet
  • Be the first to comment

Budget de crawl et SEO - Tout ce que vous devez savoir

  1. 1. #OnCrawlBreakfast Budget de crawl et SEO, tout ce que vous devez savoir pour l’optimiser #seocampus SEOCAMP’us Erlé Alberton
  2. 2. #seocampus J’adore voir Google dépenser un max de budget sur vos sites… ERLE ALBERTON CUSTOMER SUcCESS manager 10 ans de dev / 5 ans de SEO dont 2 ans en tant que responsable SEO des boutiques en ligne Orange et Sosh spécialiste schema.org seo monk ONCRAWL TRAinER
  3. 3. #seocampus www.oncrawl.comwww.oncrawl.com We help Ecommerce & Online media take better SEO decisions and grow their revenues By providing access to the Most Advanced SEO Software Semantic SEO Crawler Comprehensive Log Analyser API & Platform to combined all website’s data
  4. 4. #seocampus +300 Happy Customers
  5. 5. #seocampus +300 Happy Customers
  6. 6. #seocampus Budget de Crawl Google C’est le crédit que Google alloue à ses robots pour parcourir l’ensemble des ressources d’un site web Même si ce budget plutôt dédié aux gros sites, les sites de moyenne ou petite taille doivent tout de même optimiser les temps de Crawl Google pour montrer leur qualité Chez OnCrawl on constate que, plus Google alloue de crédit à un site plus le site reçoit de visites SEO Source : Qu'entend donc Google quand il parle de "Crawl Budget" (budget d'exploration) ?
  7. 7. #seocampus Ce que dit Google sur le « Crawl Budget » Si vous observez que les nouvelles pages sont généralement explorées le jour même de leur publication, alors vous n'avez pas vraiment à vous préoccuper du budget d'exploration […] si un site dispose de moins de quelques milliers d'URL, il sera exploré correctement la plupart du temps […] nous ne disposons pas d'un terme unique pour décrire tout ce que ce terme semble signifier en externe
  8. 8. #seocampus Ce que dit Google sur le « Crawl Budget »
  9. 9. #seocampus • 100% des sites déclarés dans GSC ont des données d’exploration • Suivre son « Crawl Behavior » grâce à l’analyse de ses logs permet de détecter rapidement une anomalie dans le comportement du bot • Un mauvais maillage interne - pagination, facette, pages orphelines, spider trap - peut empêcher Google d’explorer les bonnes pages Le budget de Crawl est en relation avec le ranking Tous les sites doivent s’intéresser à leur budget de crawl
  10. 10. #seocampus Les brevets liés a la notion de Crawl • US 8666964 B1 : Managing items in crawl schedule • US 8707312 B1 : Document reuse in a search engine crawler • US 8037054 B2 : Web crawler scheduler that utilizes sitemaps from websites • US 7305610 B1 : Distributed crawling of hyperlinked documents • US 8407204 B2 : Minimizing visibility of stale content in web searching including revisine web crawl intervals of documents • US 8386459 B1 : Scheduling a recrawl • US 8042112 B1 : Scheduler for search engine crawler A priori, la planification du crawl ca compte beaucoup !
  11. 11. #seocampus Pourquoi ? Comment ? Il faut prioriser pour économiser les ressources NB : crawler du JS ca coute très chèr oubliez Angular sans prerender
  12. 12. #seocampus
  13. 13. #seocampus Données issues du Google Search Appliance Documentation https://www.google.com/support/enterprise/static/gsa/docs/admin/72/gsa_doc_set/admin_crawl/introduction.html Schématisation du crawl
  14. 14. #seocampus Crawl budget = host load + URL scheduling Both of these still matter in migrations ! Host Load : Que Google visite par IP/host – basé sur les capacités du server URL scheduling : Quelles pages Google a envie de visiter et à quelle fréquence ? http://searchengineland.com/crawl-budget-url-scheduling-might-impact-rankings-website-migrations-255624
  15. 15. #seocampus Les composants importants pour Google Page Importance Change managment & Freshness
  16. 16. #seocampus Page Importance La notion de « Page Importance » n’est pas le Page Rank • Localisation de la page dans le site – a profondeur sur le taux de crawl • Page Rank : TF/CF de la page - Majestic • Le Page Rank interne – InRank OnCrawl • Type de document : PDF, HTML, TXT • L’inclusion dans le sitemap.xml • Le nb de liens internes • La qualité/l’importance des ancres • Contenu de qualité : nombre de mots, peu de near duplicate • L’importance de la page mère L’analyse croisée du crawl OnCrawl avec vos logs permet de suivre ces données en continu
  17. 17. #seocampus Les 3 types de crawl de Google Si vous étiez à l’EXCELLENTE conférence de Vincent Terrasi et Remi Bacha au SEOCamp’us Paris vous connaissez le sujet BEA • Google hit continuellement la Home Page et les pages avec la meilleure « Page Importance » • Google hit des groupes de pages de manière compulsive • Google hit toutes les ressources pour les comprendre (js,css,ajax) Chez OnCrawl on sait que Google hit des pages avec des problèmes pour vérifier s’ils sont résolus
  18. 18. #seocampus Les erreurs à ne pas commettre • robots.txt en 404 !! • sitemap.xml & sitemap.html out of date • erreurs 50x / 40x / soft 404 • avoir chaines de redirections • canonicals errors • contenu dupliqué (footer) / near duplicate / HTTP vs HTTPS • temps de réponse trop long • poids des pages trop important • erreurs AMP • mauvais maillage interne + Rel=nofollow • utiliser AngularJS https://support.google.com/webmasters/answer/35120?hl=fr https://www.google.com/killer-robots.txt
  19. 19. #seocampus Les solutions • Avoir un robots.txt qui autorise le crawl des parties importantes • Mettre à jour son sitemap.xml dynamiquement avec les pages ROI à faible fréquence de crawl • Monitorer ses logs pour détecter les pages en erreur - checker GSC • Créez des redirections courtes et claires • Tester ses canonicals – adapter les src en fonction du near duplicate • Utiliser des serveurs performants – nginx – des serveurs de cache – varnish • Minimiser le poids des ressources – img, css, html, fonts, js – lazy loading https://developers.google.com/web/fundamentals/performance/optimizing-content-efficiency/image-optimization • Vérifier son code AMP avec GSC • Créer des plans de sites HTML intelligents https://support.google.com/webmasters/answer/35120?hl=fr
  20. 20. #seocampus TIPS bien tricky pour améliorer le temps de chargement 62% du trafic Web Internet (hors vidéo) provient des images 51% des pages chargent plus de 40 images • WebP est le nouveau format poussé par Google pour réduire le poids des images 45% de réduction de poids vs JPG 64% de réduction du poids des Gifs animés
  21. 21. #seocampus Passer en HTTPS sans passer en HTTP2 c’est USELESS !!
  22. 22. #seocampus Quand optimiser son budget de crawl ? Lors des refontes… Les Cas Manageo avec Philippe Laine Expert SEO 13 ans d’expérience en webmarketing En agence et en interne
  23. 23. #seocampus
  24. 24. #seocampus Manageo le bon élève • 1 Million de visites/mois • 15 Millions de pages indexables par Google • Chaque entreprise de France a sa page Le trafic naturel sur les milliers de landing pages dépend essentiellement de dizaines de milliers de requêtes très « long tail » D’où l’importance de surveiller et de bien utiliser notre budget de crawl pour avoir la meilleure indexation possible
  25. 25. #seocampus Refonte = inquiétude + occasion d’optimiser • Les metrics à suivre • Budget de crawl avant vs après • Suivi des « New crawled Pages pour s’assurer de la prise en compte de la nouvelle architecture • Suivi et qualification des « status code » de redirection • Amélioration de la qualité – tps de chargement, réduction du duplicate, …
  26. 26. #seocampus Manageo le bon élève • Est-ce que Google aime mon site ? • Est-ce qu’il m’aime toujours depuis que j’ai changé de coiffure – migration HTTPS + refonte • Il y a une corrélation entre la fréquence de crawl d’une page et sa visibilité dans les SERPs Surveiller le budget de crawl est complémentaire au suivi du ranking ! Cela permet d’avoir l’information des changements de ranking plusieurs jours à l’avance
  27. 27. #seocampus Les tableaux de bord de Manageo sont issus des données GSC Le temps de chargement impacte le budget de crawl
  28. 28. #seocampus Une réalité plus complexe Seule l’analyse de logs permet vraiment de savoir ce qu’il se passe
  29. 29. #seocampus Les pages uniques crawlées la granularité ultime du SEO
  30. 30. #seocampus Les prochaines étapes • Optimiser les temps de chargement serveur • Utiliser une architecture basée sur le Cache serveur + navigateur • Retravailler la profondeur des pages importantes • Maitriser l’InRank en optimisant le linking interne Utiliser l’API d’oncrawl pour construire des dashboard de reporting pour le top managnment
  31. 31. #seocampus Avec OnCrawl adoptez les reflexes “360° SEO VIEW”
  32. 32. #seocampus Comment suivre son budget… gratuitement ! Avec l’Analyseur de Logs SEO Open Source d’OnCrawl, découvrez comment Google et les robots se comportent sur votre site • OnCrawl ELK (ElasticSearch, LogStash, Kibana) est disponible pour tous sur GitHub https://github.com/cogniteev/oncrawl-elk • Surveillez toute l’activité des robots et les performances de pages au quotidien • Contrôlez le taux de crawl de chaque robot pour n’importe quel groupe de pages • Notre stack est agnostique en termes de formats de logs mais certains d’entre eux nécessiteront peut être une configuration supplémentaire
  33. 33. #seocampus Ce que la solution gratuite ne fera pas ? Croiser les données !
  34. 34. #seocampus • Impact des KPI SEO sur les visites • Pages crawlées vs pages visitées vs pages indexées • Pages actives vs pages non actives par clusters • Taux de crawl par groupes de pages • Fréquence de crawl par profondeur • Fréquence de crawl par popularité • Fréquence de crawl par nombre de mots • Taux de crawl par temps de chargement • Taux de crawl par volume de texte Les bonnes données à croiser Toutes ces données doivent être suivies dans le temps La création d’un dashboard de pilotage est un plus
  35. 35. #seocampus Savoir être constant s’appelle être éclairé… Lao Tseu VIe s. av. J.-C.
  36. 36. #seocampus Vos questions
  37. 37. #seocampus Quels sont les 2 facteurs essentiels du Crawl Google ? Les questions
  38. 38. #seocampus Citez un des sites pour lequel Philippe Laine à travaillé Les questions
  39. 39. #seocampus A quoi correspond le status code 418 ? Les questions
  40. 40. #seocampus Comment s’appelle notre programme de formation à OnCrawl ? Les questions
  41. 41. MERCI ! hello@oncrawl.com Follow us : @Oncrawl

×