Successfully reported this slideshow.
Your SlideShare is downloading. ×

Duplicate Content Seo campus 09-03-2012

Ad

L e " D u p lic a t e
C o nte nt"

Olivier Andrieu (Abondance)
SEO CAMPUS
9 mars 2012
olivier@abondance.com
http://www.abo...

Ad

Présentation

Olivier Andrieu (olivier@abondance.com)
Basé à Heiligenstein (67140)

- Premiers pas sur Internet en 1993

-...

Ad

L e " D u p lic a t e C o n t e n t "




   Le "duplicate content",
   c'est quoi ?

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Ad

Check these out next

1 of 37 Ad
1 of 37 Ad
Advertisement

More Related Content

Advertisement

Duplicate Content Seo campus 09-03-2012

  1. 1. L e " D u p lic a t e C o nte nt" Olivier Andrieu (Abondance) SEO CAMPUS 9 mars 2012 olivier@abondance.com http://www.abondance.com/
  2. 2. Présentation Olivier Andrieu (olivier@abondance.com) Basé à Heiligenstein (67140) - Premiers pas sur Internet en 1993 - Création de la société Abondance en 1996 - Audit, conseil, accompagnement, formations, etc. autour du référencement naturel (SEO) Lettre professionnelle "Recherche et Référencement"
  3. 3. L e " D u p lic a t e C o n t e n t " Le "duplicate content", c'est quoi ?
  4. 4. Le "duplicate content", c'est quoi ? La gestion du contenu dupliqué par les moteurs La notion de contenu dupliqué peut être de différents types…
  5. 5. Le "duplicate content", c'est quoi ? ???
  6. 6. Le "duplicate content", c'est quoi ? Il peut s'agir de contenus complets ou parfois de ??? "parties de contenus"
  7. 7. Le "duplicate content", c'est quoi ? Il peut s'agir de contenus complets ou parfois de ??? "parties de contenus" Méthodes : Algorithme de Simhash : http://www.cs.princeton.edu/courses/archive/ spring04/cos598B/bib/CharikarEstim.pdf Indice et distance de Jaccard : http://fr.wikipedia.org/wiki/Indice_et_distance _de_Jaccard Similarité Cosinus / Indice de Tanimoto : http://fr.wikipedia.org/wiki/Similarit %C3%A9_cosinus#indice_de_Tanimoto Coefficient de Dice : http://en.wikipedia.org/wiki/Dice's_coefficient
  8. 8. Le "duplicate content", c'est quoi ? Canonique (l'original) PageRank Date de crawl Dupliquée (la copie) Moins de visibilité Crawl affecté
  9. 9. L e D u p lic a t e C o n t e n t Les différentes formes de duplicate content
  10. 10. Les différentes formes de duplicate content 1. Le DC intrasite http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles- sarkozy-hollande.html 2012/sarkozy-hollande.html ???
  11. 11. Les différentes formes de duplicate content 2. Le DC intersite http://www.siteweb.com/actu/france/ http://www.autresiteweb.com/actualites/ sarkozy-hollande.html sarkozy-hollande.html ???
  12. 12. Les différentes formes de duplicate content 3. Le DC DUST (Duplicate URL, Same Text) ??? http://www.siteweb.com/actu/france/sarkozy-hollande/ http://siteweb.com/actu/france/sarkozy-hollande/ http://www.siteweb.com/actu/france/sarkozy-hollande http://www.siteweb.com/actu/france/sarkozy-hollande/index.html http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailingpays=fr http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr source=emailing
  13. 13. Les différentes formes de duplicate content 4. Le DC par similarité des Title et meta description ???
  14. 14. Les différentes formes de duplicate content 5. Le DC multilingue http://www.siteweb.fr/actu/s http://www.siteweb.be/actu/ http://www.siteweb.ch/actu/ arkozy-hollande.html sarkozy-hollande.html sarkozy-hollande.html ???
  15. 15. L e D u p lic a t e C o n t e n t Les solutions contre le duplicate content
  16. 16. Duplicate content : les solutions 1. Le DC intrasite http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles- sarkozy-hollande.html 2012/sarkozy-hollande.html ???
  17. 17. Duplicate content : les solutions 1. Le DC intrasite http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles- sarkozy-hollande.html 2012/sarkozy-hollande.html 1ère solution : suffisamment modifier le second contenu pour le différencier du premier (réécriture manuelle, ajout de contenu, spinning, etc.)
  18. 18. Duplicate content : les solutions 1. Le DC intrasite Des outils comme DuplicateContent.net (ou d'autres similaires) peuvent vous aider
  19. 19. Duplicate content : les solutions 1. Le DC intrasite http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles- sarkozy-hollande.html 2012/sarkozy-hollande.html 2ème solution : balise canonical Dupliquée link rel=canonical href= Canonique http://www.siteweb.com/actu/france/sarkozy-hollande.html
  20. 20. Duplicate content : les solutions 1. Le DC intrasite http://www.siteweb.com/actu/france/ http://www.siteweb.com/actu/presidentielles- sarkozy-hollande.html 2012/sarkozy-hollande.html 3ème solution : désindexation Disallow: http://www.siteweb.com/actu/presidentielles-2012/sarkozy-hollan html (robots.txt) Ou meta name=robots content=noindex,follow
  21. 21. Duplicate content : les solutions 1. Le DC intrasite Attention aux versions PDF de vos pages HTML (ou inversement) : http://actu.abondance.com/2011/09/google-et-lindexation-de-documents-pdf.html En revanche, un contenu traduit n'entre pas en duplicate content avec l'original…
  22. 22. Duplicate content : les solutions 2. Le DC intersite http://www.siteweb.com/actu/france/ http://www.autresiteweb.com/actualites/ sarkozy-hollande.html sarkozy-hollande.html Même solution (mais plus compliquée) : balise canonical (ou réécriture ou désindexation) Dupliquée link rel=canonical href= Canonique http://www.siteweb.com/actu/france/sarkozy-hollande.html
  23. 23. Duplicate content : les solutions 2. Le DC intersite Eviter de proposer le contenu complet de vos articles dans vos fils RSS. Proposer plutôt titre + chapo… La reprise d'un fil RSS contenant titre + chapo ne constitue pas un cas de DC.
  24. 24. Duplicate content : les solutions 3. Le DC DUST (Duplicate URL, Same Text) ??? http://www.siteweb.com/actu/france/sarkozy-hollande/ http://siteweb.com/actu/france/sarkozy-hollande/ http://www.siteweb.com/actu/france/sarkozy-hollande http://www.siteweb.com/actu/france/sarkozy-hollande/index.html http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?source=emailingpays=fr http://www.siteweb.com/actu/france/sarkozy-hollande/index.html?pays=fr source=emailing
  25. 25. Duplicate content : les solutions 3. Le DC DUST (Duplicate URL, Same Text) Solution : balise canonical link rel=canonical href= http://www.siteweb.com/actu/france/sarkozy- hollande/ http://www.siteweb.com/actu/france/sarkozy-hollande/ http://www.siteweb.com/actu/france/sarkozy-hollande http://www.siteweb.com/actu/france/sarkozy-hollande/index.html http://www.siteweb.com/actu/france/sarkozy-hollande/index.html? source=emailing
  26. 26. Duplicate content : les solutions 3. Le DC DUST (Duplicate URL, Same Text) Solution : Vérifier dans les Webmaster Tools (Configuration du site Paramètres d'URL) les paramètres d'URL qui peuvent générer du DC…
  27. 27. Duplicate content : les solutions 3. Le DC DUST (Duplicate URL, Same Text) Solution : 1. Indiquez uniquement les URL canoniques dans votre Sitemap ! 2. Faites attention à votre linking interne : http://www.votresite.com/ vs. http://www.votresite.com 3. Vérifiez que vos URL réécrites sont redirigées en 301 : http://www.votresite.fr/index.php?id=4 301 http://www.votresite.fr/apropos.html
  28. 28. Duplicate content : les solutions 4. Le DC par similarité des Title et meta description ???
  29. 29. Duplicate content : les solutions 4. Le DC par similarité des TITLE et meta description Solution : 1. Vérifier dans les Webmaster Tools (Diagnostic Suggestions HTML) 2. Corriger en différenciant suffisamment les TITLE et meta description de chaque page du site.
  30. 30. Duplicate content : les solutions 5. Le DC multilingue http://www.siteweb.fr/actu/s http://www.siteweb.be/actu/ http://www.siteweb.ch/actu/ arkozy-hollande.html sarkozy-hollande.html sarkozy-hollande.html ???
  31. 31. Duplicate content : les solutions 5. Le DC multilingue Solution : 1. Les balises multilingues http://www.siteweb.fr/actu/s http://www.siteweb.be/actu/ http://www.siteweb.ch/actu/ arkozy-hollande.html sarkozy-hollande.html sarkozy-hollande.html link rel=alternate link rel=alternate link rel=alternate hreflang=fr-fr href= hreflang=fr-be href= hreflang=fr-ch href= http://www.siteweb.fr/actu/s http://www.siteweb.fr/actu/s http://www.siteweb.fr/actu/s arkozy-hollande.html / arkozy-hollande.html / arkozy-hollande.html /
  32. 32. Duplicate content : les solutions 5. Le DC multilingue Solution : 2. Indiquer le pays-cible dans les Webmaster Tools (Configuration du site Paramètres)
  33. 33. L e D u p lic a t e C o n t e n t Conclusion
  34. 34. Conclusion - Le DC n'est pas une pénalité pour un site (sauf spamdexing : http://support.google.com/webmasters/bin/answer.py? hl=franswer=66359), mais donne une moins bonne visibilité aux pages dupliquées. - Parfois le simple fait de corriger les problèmes de DC améliore grandement un référencement. - Il n'est pas nécessaire de faire une demande de reconsidération de site à Google après avoir corrigé du DC. - Les solutions existent. - En règle générale, elles fonctionnent, mais c’est souvent très long ;-) - Google devrait peut-être proposer une assistance adaptée aux gros sites web à ce sujet.
  35. 35. Conclusion Petite webographie googlienne pour aller plus loin : New markup for multilingual content (05/12/2011) http://googlewebmastercentral.blogspot.com/2011/12/new-markup-for-multilingual-content.html More guidance on building high-quality sites (06/05/2011) http://googlewebmastercentral.blogspot.com/2011/05/more-guidance-on-building-high-quality.html Handling legitimate cross-domain content duplication (15/12/2009) http://googlewebmastercentral.blogspot.com/2009/12/handling-legitimate-cross-domain.html Reunifying duplicate content on your website (06/10/2009) http://googlewebmastercentral.blogspot.com/2009/10/reunifying-duplicate-content-on-your.html Duplicate content and multiple site issues (15/09/2009) http://googlewebmastercentral.blogspot.com/2009/09/duplicate-content-and-multiple-site.html Specify your canonical (12/02/2009) http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html Demystifying the duplicate content penalty (12/09/2008) http://googlewebmastercentral.blogspot.com/2008/09/demystifying-duplicate-content-penalty.html Duplicate content due to scrapers (09/06/2008) http://googlewebmastercentral.blogspot.com/2008/06/duplicate-content-due-to-scrapers.html Deftly dealing with duplicate content (18/12/2006) http://googlewebmastercentral.blogspot.com/2006/12/deftly-dealing-with-duplicate-content.html Plus d'infos : requête intitle:duplicate content site:googlewebmastercentral.blogspot.com
  36. 36. Conclusion Petite webographie non-googlienne pour aller plus loin : Similarité et Duplicate content : L'indice de Jaccard http://b1n.sp1n.me/seo/similarite-duplicate-content-indice-jaccard.109.html Algorithme de Simhash: Script PHP de calcul de similarité http://www.seoblack-inside.com/php-calcul-similaire-texte-simhash/ Ne pas confondre similarité et duplication de contenus; cas d’école http://www.webcontentspinning.com/ne-pas-confondre-similarite-et-duplication-de-contenus-cas-decole/ Détection de duplicate content http://www.webcontentspinning.com/detection/ Dis papa c'est quoi le duplicate content ? http://www.cyroul.com/web12/dis-papa-cest-quoi-le-duplicate-content/ Vol de contenu et duplicate content http://blog.axe-net.fr/duplicate-content-plagiat/ Google lutte contre les scrapers et encourage la dénonciation http://actu.abondance.com/2011/08/google-lutte-contre-les-scrapers-et.html Tout savoir sur le filtre Contenus Dupliqués de Google http://www.webrankinfo.com/dossiers/techniques/filtre-duplicate-content Lutter contre le duplicate content http://s.billard.free.fr/referencement/?2008/04/24/477-lutter-contre-le-duplicate-content Google Patent Granted on Duplicate Content Detection in a Web Crawler System http://www.seobythesea.com/2009/12/google-patent-granted-on-duplicate-content-detection-in-a-web-crawler-system/ Duplicate and Near Duplicate Documents Detection: A Review http://www.eurojournals.com/ejsr_32_4_08.pdf The Illustrated Guide to Duplicate Content in the Search Engines http://www.seomoz.org/blog/the-illustrated-guide-to-duplicate-content-in-the-search-engines
  37. 37. L e D u p lic a t e C o n t e n t Merci :-) Support proposé par Olivier Andrieu - olivier@abondance.com

×