Your SlideShare is downloading. ×
Désindexation
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Désindexation

4,726
views

Published on

Published in: Technology

1 Comment
11 Likes
Statistics
Notes
No Downloads
Views
Total Views
4,726
On Slideshare
0
From Embeds
0
Number of Embeds
12
Actions
Shares
0
Downloads
97
Comments
1
Likes
11
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Indexation et désindexationSEO Campus14 mars 2013Olivier Andrieu(Abondance)olivier@abondance.comhttp://www.abondance.com/
  • 2. PrésentationOlivier AndrieuBasé à Heiligenstein (67140)- Premiers pas sur Internet en 1993- Création de la société Abondance en 1996- Audit, conseil, accompagnement, formations, etc.autour du référencement naturel (SEO)
  • 3. Indexation et désindexation1. Pourquoi désindexer ?2. Que désindexer ?3. Comment désindexer ?4. Suivre une désindexationLes slides seront en ligne demain
  • 4. Indexation et désindexationPourquoi désindexer ?- Pour fournir aux internautes uniquement des pages de bonne qualité- Pour améliorer le taux de rebond sur son site- Pour améliorer le "pogo sticking" de Google- Désindexer = parfois "ne pas encore indexer"- Pour des raisons de confidentialité- Pour "bétonner" la non-indexation dun intranet ou dune zone accessible aux abonnés/clients…- Pour éviter dindexer des fichiers inutiles (CSS, JS, cgi-bin, etc.)- Pour obliger linternaute à venir sur votre site chercher un document- Pour être en conformité avec les "guidelines" de Google (pages de résultats du moteur interne)- Pour des problèmes de droits- Pour faciliter le travail de crawl de Google- Pour cause de diffamation ou demande à finalité juridique- Pour interdire laccès à des robots "exotiques”- Pour éviter les foudres de Panda
  • 5. Indexation et désindexationLes risques de la désindexation- Moins de pages indexées = perte de confiance de la part de Google ?- Moins de trafic de Longue Traîne ?- Montrer aux autres les "zones dombre" du site- La perte de transmission de PR (augmentation des "dangling pages")Pourquoi sembêter à désindexer ?- On na pas lhabitude :-)- Une pratique récente- Pourquoi faire le boulot de Google à sa place ?
  • 6. Indexation et désindexationQue désindexer ?- Les pages en "duplicate content" ?- Les pages obsolètes ?- Les pages avec peu de contenu textuel- Les pages peu intéressantes (formulaires)- Les images (copyright ?)- Les versions de test dun site web- Les pages de résultats de votre moteur interne- Des pages diffamantesGlobalement, les pages qui napportent pas une réponse satisfaisante auxinternautes si on les trouve dans les SERP, notamment si elles sont présentes engrande quantité sur votre site…- Rappel : Google demande que vous ne désindexiez pas les JS et CSS(http://www.abondance.com/actualites/20120326-11319-matt-cutts-laissez-googlebot-crawler-vos-css-et-javascript.html).
  • 7. Indexation et désindexationQue désindexer ?- Les pages en "duplicate content" ?Exemples :- Mêmes produits dans des couleurs différentes- Même article dans des rubriques différentes- Article repris depuis une source originale- DUST (Duplicate URL, Same Text)A priori, préférer la balise canonicalqui transfère les backlinks des pages dupliquéesvers les canoniques.La désindexation peut être obligatoiresi la source le demande (mais cest dommagepour tout le monde, la canonical est préférable)Problématique des contenus disponibles sous différents formats (Doc, PDF, etc.)
  • 8. Indexation et désindexationQue désindexer ?- Les pages obsolètes ?A traiter au cas par cas…Leur Contenu est-il vraimenttotalement inintéressant ?Dans ce cas, ne vaut-il pas mieuxenvisager une 301 vers unepage plus intéressante ?
  • 9. Indexation et désindexationQue désindexer ?- Les pages de faible qualitéOui, ça semble logique…- Formulaires- Pages avec très peu de texte- Pages ne répondant pas potentiellement aux questions des internautesMais désindexer uniquement si leur volume est importantFaites preuve de bon sens…
  • 10. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- Balise meta "robots" (interdit lindexation)- Directive X-Robots-Tag (interdit lindexation)- Google Webmaster Tools (interdit lindexation)
  • 11. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl) User-agent: Googlebot Disallow:http://www.votresite.com/robots.txt User-agent: * Disallow: /User-agent:* Seul Googlebot est autoriséDisallow: /images/Disallow: /fichiers User-Agent: * User-agent: * Disallow: /repertoire/chemin/page.html Disallow: Disallow: /repertoire/chemin/page2.html Opérations portes ouvertes Disallow: /repertoire/chemin/page3.html Désindexation dURL précises User-agent: * Disallow: / User-Agent: * Fermé à double tour Disallow: /repertoire/chemin/page Comment autoriser /repertoire/chemin/page2 au crawl ?
  • 12. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- Les robots de Google >- Liste des autres robots :http://www.robotstxt.org/db.html Source : http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=1061943
  • 13. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- Eviter les jokers (*, $, etc.) qui ne sont compatibles quavec Google et Bing Disallow: /*price= Disallow: /*{{config path=$ Disallow: /*.flv$- Idem pour "Allow:"- Ne pas insérer de lignes blanches après le User-agent: QuickTime™ and a Graphics decompressor are needed to see this picture.
  • 14. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- Le bloc le plus spécifique sera pris en compte :User-agent: *Disallow:User-agent: BingbotDisallow: /Attention aux directives contradictoires !
  • 15. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- Testez vos robots.txt :* Google Webmaster Tools (Etat de santé > URL bloquées)* Outils dédiés :http://tool.motoricerca.info/robots-checker.phtml
  • 16. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- Les pages sont connues de Google, les URL sont donc indexées mais pas explorées (mais un titre explicite est parfois indiqué par Google)
  • 17. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- LURL est indexée, pas le contenu.- Mais elle est "présente" dans les SERP !- Que se passe-t-il si le contenu était indexé avant la mise en place du robots.txt ? > Délai avant remise à jour des données- Le fichier robots.txt dun site nest pas lu par Google à chaque visite. Il faut le créer bien avant la mise en ligne des contenus "interdits"
  • 18. Indexation et désindexationComment désindexer ?- Fichier robots.txt (interdit le crawl)- Attention si vous recevez ce type de message :- Conclusion : le robots.txt est une solution plutôt à déconseiller
  • 19. Indexation et désindexationComment désindexer ?- Balise meta robots (interdit lindexation)<meta name="robots" content="noindex,follow"><meta name="robots" content="noindex,nofollow"><meta name="googlebot" content="noindex,follow">- Fonctionne pour les pages web- Ne fonctionne pas pour les autres formats (PDF, Word, PPT, images, etc.)- Bien penser à ne pas mettre les URL dans le fichier robots.txt
  • 20. Indexation et désindexationComment désindexer ?- Directive X-Robots-Tag (interdit lindexation)- Dans len-tête HTTP- Convient pour tous les formats de documents.- Bien penser à ne pas mettre les URL dans le fichier robots.txt- Peut être intéressant pour ne pas indexer les pages https déjà disponibles en http(http://www.yapasdequoi.com/apache/2983-len-tete-x-robot-tag-ou-comment-vite-desindexer-des-pages.html)- Plus dinfos : https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag
  • 21. Indexation et désindexationComment désindexer ?- Directive X-Robots-Tag (interdit lindexation)Quelques exemples :HTTP/1.1 200 OKDate: Tue, 25 May 2010 21:42:43 GMT(…)X-Robots-Tag: noindex HTTP/1.1 200 OK(…) Date: Tue, 25 May 2010 21:42:43 GMT (…) X-Robots-Tag: googlebot: nofollowHTTP/1.1 200 OK X-Robots-Tag: otherbot: noindex, nofollowDate: Tue, 25 May 2010 21:42:43 GMT (…)(…)X-Robots-Tag: noarchiveX-Robots-Tag: unavailable_after: 25 Jun 2013 15:00:00 PST(…)
  • 22. Indexation et désindexationComment désindexer ?- Directive X-Robots-Tag (interdit lindexation) Source : https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag
  • 23. Indexation et désindexationComment désindexer ?- Directive X-Robots-Tag (interdit lindexation)Exemple PHP :header("X-Robots-Tag: noindex", true);header("X-Robots-Tag: noindex, nofollow", true);Exemple via le .htaccess :<FilesMatch ".doc$">Header set X-Robots-Tag "noindex, noarchive"</Files><FilesMatch ".(doc|pdf)$">Header set X-Robots-Tag "noindex, noarchive"</Files>
  • 24. Indexation et désindexationComment désindexer ?- Google Webmaster Tools (interdit lindexation) Le contenu supprimé à laide de cet outil est exclu de lindex Google pour une période minimale de 90 jours. Au cours de cette période, vous pouvez à tout moment utiliser loutil de demande de suppression dURL pour réintégrer votre contenu. Voir : https://support.google.com/webmasters/bin/answer.py?hl=fr&answer=59819
  • 25. Indexation et désindexationComment désindexer ?- Google Webmaster Tools (interdit lindexation) "Gardez à lesprit que cet outil supprime toutes les versions dune page (http/https et www/non www), même la version principale." Autre cas ici : http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=1269119
  • 26. Indexation et désindexationComment suivre une désindexation ?- Requête "site:"- Google Webmaster Tools : Etat de santé > Etat de lindexation- Eventuellement, créer un Sitemap spécial "Désindexation" et le suivre dans les GWT
  • 27. Indexation et désindexationQuelques infos supplémentaires- Google na pas de limite de nombre de pages crawlées / indexées par site.- Vous ne pouvez pas désindexer les sites de vos concurrents :-)- Si vous demandez à Google de désindexer un contenu pour cause de diffamationou autre motif, le seul moyen darriver à vos fins est de faire un procès…- Mais vous pouvez faire une demande Digital Millennium Copyright Act (DMCA) (http://www.google.fr/intl/fr/dmca.html) en cas de violation des droits d’auteur
  • 28. Indexation et désindexationConclusion- La désindexation, une pratique nouvelle mais parfois utile et nécessaire- Séparer le bon grain de l’ivraie sur son site- Ne donner à manger à Goole que ce qu’il peut bien digérer- Préférer la balise meta “robots” et la directive X-Robots-Tag
  • 29. Indexation et désindexationQuelques liens :Protocole robots.txt et standards associés :http://www.robotstxt.org/Page de référence de Google sur les balises meta robots et x-robots-tag :https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tagPages de référence de Google sur le fichier robots.txt et les extensions du standard propres àce moteur :http://googlewebmastercentral.blogspot.fr/2008/06/improving-on-robots-exclusion-protocol.htmlhttp://support.google.com/webmasters/bin/answer.py?hl=fr&answer=156449&from=40367&r d=1https://developers.google.com/webmasters/control-crawl-index/docs/faq
  • 30. Indexation et désindexation MERCI !! Merci à Philippe Yonnet et David Degrelle pour la relecture et les suggestions :))
  • 31. Indexation et désindexation CONTENT IS KING, LINK IS HIS QUEEN, OPTIMIZED CONTENT IS EMPEROR !!! Le référencement sert à donner unebonne visibilité à un contenu de qualité ! Support proposé par Olivier Andrieu olivier@abondance.com