More Related Content

More from Search Foresight(20)

Synodiance > SEO - Etude désindexation de contenus - 21/01/2015

  1. Désindexation de contenus Janvier 2015 Etude
  2. Etude désindexation de contenus Objectifs de l ’étude › Identifier et tester les directives de désindexation et de blocage d’indexation, › Optimiser l’exploration des bots – notion de « crawl utile », › Prioriser l’indexation des contenus stratégiques – pages objectifs. Environnement de test › Site dédié : ananas-seo.com › Période analysée : de septembre à novembre 2014 › Moteur étudié : Googlebot
  3. Site Test : ananas-seo.com Informations à prendre en compte avant lecture des résultats › ananas-seo.com a été créé spécialement pour un environnement de test, › Le domaine et les contenus ont peu d’autorité côté moteur de recherche, › Des sites à gros volume et forte popularité peuvent générer des résultats sensiblement différents, › Les directives testées ont donné lieu à des conclusions applicatives fiables et non strictes.
  4. Exploration VS Indexation Directives d’exploration : Par défaut, si aucune restriction n’est implémentée les bots pourront accéder à l’ensemble des fichiers présents sur le serveur web.
  5. Exploration VS Indexation Directives d’exploration : Par défaut, si aucune restriction n’est implémentée les bots pourront accéder à l’ensemble des fichiers présents sur le serveur web. Exemple d’une directive d’exploration dans le fichier robots.txt Disallow: /voyages/
  6. Exploration VS Indexation Directives d’indexation : Par défaut, si aucun paramètre oriente les bots lors de l’exploration, tout contenu est potentiellement indexable.
  7. Exploration VS Indexation Directives d’indexation : Par défaut, si aucun paramètre oriente les bots lors de l’exploration, tout contenu est potentiellement indexable. Exemple d’une directive d’indexation dans le <header> html d’un document. <Meta name=«robots» content=«noindex» />
  8. Test SEO : liste des directives testées Objectifs du test : bloquer l’indexation et désindexer des contenus Liste des directives testées sur ananas-seo.com • Déclaration d’une URL en HTTP 404 liée dans la structure • Déclaration d’une URL en HTTP 404 non-liée dans la structure • Déclaration d’une URL en HTTP 410 liée dans la structure • Déclaration d’une URL en HTTP 410 non-liée dans la structure • Balise Meta Noindex en Header Document post indexation • Balise Meta Noindex en Header Document post indexation + liens externes vers la cible url • Balise Meta Noindex en Header Document à la mise en production • Bloquer l’indexation via robots.txt à la mise en production : commande Disallow • Désindexation via directive x-robots tags implémentée dans le fichier .htaccess • Désindexation URL via noindex dans robots.txt • Désindexation répertoire via noindex dans robots.txt
  9. Désindexation « naturelle » : En soit ce n’est pas vraiment une méthode. Sur une période relativement longue et après plusieurs explorations, une page qui reçoit un code réponse HTTP 404 se désindexe. Attention : un document en 404 qui reçoit des liens externes a tendance à être maintenu dans l’index, surtout si les pages envoyant ces liens ont de l’autorité. Déclaration d’une URL en 404 liée dans la structure URL désindexée : OUI Délai constaté : 45 jours
  10. Désindexation « naturelle » : Similaire à une page 404 liée dans la structure, la désindexation est effective dans un délai constaté un peu plus long. Attention : un document en 404 qui reçoit des liens externes a tendance à être maintenu dans l’index, surtout si les pages envoyant ces liens ont de l’autorité. Déclaration d’une URL en 404 non-liée dans la structure URL désindexée : OUI Délai constaté : 60 jours
  11. Désindexation « naturelle » : On constate le même comportement de désindexation qu’une URL en HTTP 404. A noter : initialement orientée désindexation, Google communique sur la non distinction entre 404 et 410. Déclaration d’une URL en 410 liée dans la structure URL désindexée : OUI Délai constaté : 55 jours https://support.google.com/webmasters/answer/2409439?hl=fr
  12. Désindexation « naturelle » : On constate le même comportement de désindexation qu’une URL en HTTP 404. A noter : initialement orienté désindexation, Google communique sur la non distinction entre 404 et 410. Déclaration d’une URL en 410 non-liée dans la structure URL désindexée : OUI Délai constaté : 45 jours https://support.google.com/webmasters/answer/2409439?hl=fr
  13. Désindexation rapide : Assez efficace cette directive permet une désindexation rapide de contenus. <Meta name=«robots» content=«noindex» /> Important : attention de ne pas bloquer dans le robots.txt l’exploration des pages en Noindex. Cela aurait pour effet la non prise en compte de la directive de désindexation. Implémenter le balisage Meta Noindex après indexation URL désindexée : OUI Délai constaté : 15 jours
  14. Désindexation rapide : Assez efficace cette directive permet une désindexation rapide de contenus. <Meta name=«robots» content=«noindex» /> Important : sur un site d’autorité à forte popularité, un contenu en noindex peut être plus difficile à désindexer en raison du nombre de liens qu’il reçoit. Implémenter le balisage Meta Noindex après indexation sur une page qui reçoit du liens. URL désindexée : OUI Délai constaté : 20 jours
  15. Pas d’indexation : Intégrée dès la mise en production d’un document, la directive empêche l’indexation. <Meta name=«robots» content=«noindex» /> Implémenter le balisage Meta Noindex à la mise en prod URL non indexée : OUI Délai constaté : none
  16. Fonctionne dès la mise en production : La directive d’exploration « Disallow » empêche l’indexation d’un document uniquement si cette dernière est intégrée à la mise en production. Disallow: /ananas-poulet-riz-coco.php Important : n’a aucune fonction de désindexation. Un « disallow » est une directive d’exploration. Bloquer l’indexation d’un contenu via le fichier robots.txt URL non indexée : OUI Délai constaté : none
  17. Le robot d’exploration analyse l’entête HTTP: Directive très efficace et également intéressante quand on souhaite gérer la désindexation sans modifier le code source d’un contenu. X-Robots-Tag: googlebot: noindex A noter : le mode d’implémentation dépend du site (volume de pages, architecture,…) Désindexation via commande x-robots tag URL désindexée : OUI Délai constaté : 15 jours
  18. Directive non officielle : Google ne l’a jamais officialisée mais il sait l’interpréter. Noindex: /ananas-roti-vanille.php A noter : un site qui réalise 120 000 visites par mois a un fichier robots.txt exploré en moyenne 40 fois par jour. La directive, dans certains cas, peut être intéressante. Désindexation d’un document via noindex dans le robots.txt URL désindexée : OUI Délai constaté : 15 jours
  19. Directive non officielle : Google ne l’a jamais officialisé mais il sait l’interpréter. Noindex: /fruit/ A noter : un site qui réalise 120 000 visites par mois a un fichier robots.txt exploré en moyenne 40 fois par jour! La directive, dans certains cas, peut être intéressante. Désindexation d’un répertoire via noindex dans le robots.txt URL désindexée : OUI Délai constaté : 25 jours
  20. Synthèse Désindexer « naturellement » un contenu via HTTP 404/410 › Fonctionne si les contenus ne reçoivent pas trop de maillage interne/externe Bloquer l’indexation ou désindexer un contenu avec une Meta Noindex › Fonctionne si les contenus sont accessibles par les robots d’exploration Bloquer l’indexation ou désindexer un contenu X-robots tag Noindex › Très efficace, plus technique, la directive est dans l’entête HTTP du document. Désindexer un contenu avec directive Noindex dans le robots.txt › Non officielle mais reconnue par les principaux robots d’exploration, peut être utile selon les cas.