• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO
 

Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO

on

  • 37,203 views

Le crawling est une étape indispensable à l'indexation. Pour comprendre le fonctionnement de votre site et améliorer son référencement, Philippe Yonnet vous explique au Tuni'SEO 2014 les bonnes ...

Le crawling est une étape indispensable à l'indexation. Pour comprendre le fonctionnement de votre site et améliorer son référencement, Philippe Yonnet vous explique au Tuni'SEO 2014 les bonnes méthodes pour optimiser son potentiel de crawl.
Directeur de l’agence Search Foresight du groupe My Media, Président fondateur de l’Association SEO Camp, Philippe YONNET a été tour à tour Directeur du département internet du Groupe Studyrama, Directeur Général Adjoint de l’agence Aposition/Isobar, SEO International Director chez W3 Inc (Vivastreet), et Directeur SEO International chez Twenga.

Statistics

Views

Total Views
37,203
Views on SlideShare
37,166
Embed Views
37

Actions

Likes
3
Downloads
0
Comments
0

6 Embeds 37

https://www.facebook.com 25
http://www.slideee.com 5
http://t.co 4
https://m.facebook.com&_=1394536997535 HTTP 1
https://m.facebook.com&_=1394547001186 HTTP 1
https://m.facebook.com&_=1394556286590 HTTP 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO Tuni'SEO 2014 : Utiliser un crawler pour optimiser son site pour le SEO Presentation Transcript

    • UTILISER UN CRAWLER POUR LE SEO Philippe YONNET Agence Search Foresight – My Media
    • Search Foresight Foresight : définition • “an act or the power of foreseeing” : prescience • “provident care” : prudence et prévoyance • “an act of looking forward” : prospective
    • Philippe YONNET – Directeur de Search Foresight • Philippe YONNET, 46 ans, a aujourd’hui dix années d’expérience en référencement naturel. • Il a conseillé plus d’une centaine de sites, dont un grand nombre de sites à forte audience (Pages Jaunes, Rue du Commerce, Pixmania, Dailymotion, AuFeminin, LeGuide, Twenga, Allociné, Ebay, Nokia, Fnac, SFR, Facebook, La Redoute…) • Il a été notamment Directeur métier puis Directeur Général Adjoint d’Aposition-Isobar de 2007 à 2010. Il est ensuite revenu chez l'annonceur, pour travailler à Londres et New-York pendant deux ans, en tant que Directeur SEO International de Vivastreet, puis en tant que Directeur SEO International et Directeur Merchandising du comparateur de prix Twenga. • Philippe YONNET est le président fondateur de l’association SEO Camp, qui regroupe les professionnels du référencement des pays francophones. – Il est un contributeur régulier de la lettre professionnelle d’Abondance, et a contribué à plusieurs chapitres du livre « réussir son référencement » chez Eyrolles – Il a fondé le principal évènement sur le référencement en France, les SEO Camp’us – Il a créé la certification CESEO, qui valide les connaissances des experts en SEO
    • C’est quoi un crawler ? • Deux modes : aspirateur / spider – Aspirateur : on lui fournit une liste d’urls, que le robot « aspire » (télécharge) pour alimenter une base de données – Spider : on fournit une url de départ au robot, qui analyse le contenu de la page web, trouve les liens à l’intérieur, les stocke dans une file d’attente. Puis il télécharge les nouvelles urls trouvées, trouve d’autres liens à l’intérieur et ainsi de suite… • On appelle le processus suivi par le spider le « crawl », et on appelle aussi les spiders des « crawlers »
    • 5 Web URLs crawled and parsed URLs frontier Unseen Web Seed pages
    • LES USAGES CLASSIQUES
    • La détection des liens brisés • Détection des pages 404
    • La détection des redirections • Détection des erreurs 30x • Objectif : diminuer le volume de 301 • Eliminer les 302
    • Détection des erreurs • Détection des erreurs avec Botify
    • UTILISATION AVANCÉE
    • Tester les performances du site • Le temps de téléchargement du code a une influence sur l’exploration de Google
    • Tester les performances du site • Google webmaster tools ne fournit que des temps « moyens » • Un crawler permettra de comprendre quelles sont les « scripts » lents et d’identifier les causes de ralentissement
    • Détection des duplicate title et descr • Exemple avec Screaming Frog
    • Vérification des plans de taggage
    • Vérification du duplicate • Ex avec Botify
    • Vérification de l’efficacité de la mise en cache • Extraction de patterns : – timestamp de génération de la page vs horodatage du téléchargement de la page – Test de requêtes conditionnelles (If modified since et renvoi de codes 304) – Etc.
    • Analyse de la profondeur • Profondeur : nb de clics nécessaires pour atteindre une page en cliquant sur des liens – Exemple ci-dessous : Botify
    • Pourquoi mesurer la profondeur ? 0 20000 40000 60000 80000 100000 120000 140000 Prof 0 Prof 1 Prof 2 Prof 3 Prof 4 Prof 5 Prof 6 Prof 7 Prof 8 nb urls crawlables non crawlées nb urls crawlées Plus une url est profonde, moins elle reçoit de linkjuice Plus une url est profonde, moins elle a de Pagerank, moins elle est crawlée
    • Le rythme de crawl sur Google est fonction du PR (et d’autres facteurs)
    • Les prérequis pour le crawler • Respect du robots.txt • Gestion du nofollow sur les liens • Gestion du nofollow dans les balises meta • Gestion du x-robots-tag dans les en-têtes http:// • Gestion des canonical comme des redirections
    • Analyse des link rel=canonical
    • Analyse des liens sortants • Ex : botify
    • Diagnostic complet • Ex avec Botify (tableau de bord)
    • L’analyse combinée crawl+logs • Urls crawlables => données par votre crawler • Urls crawlées par Googlebot => découvertes dans les logs serveur (User Agent : googlebot) Home Cat 1 P1 P2 P3 Cat 2 P1 P2 P3 P4 Cat 3 P1 P2 Votre version Home Cat 1 P1 P2 P3 Cat 2 P1 P1bis P2 P2bis P3 P4 Cat2bis Cat 3 Version vue par Googlebot Des urls en moins Des urls en +
    • Principe de l’analyse des deux versions Urls crawlées par Google, non présentes sur le site : URLS parasites, à bloquer dans le robots.txt Urls présentes sur le site, non explorées par Google : identifier la cause Urls OK présentes et crawlées
    • L’analyse du maillage interne • Objectif : mesurer les ratios – Nb de liens entrants vs liens sortants – Nb de liens sortants internes vs externes • Indegree = nombre de liens entrants • La hiérarchie des indegrees doit être conforme à l’importance des pages
    • EXEMPLES DE CRAWLERS UTILES
    • Xenu Link Sleuth • http://home.snafu.de/tilman/xenulink.html
    • Link Examiner • http://www.analogx.com/contents/download/Network/lnkexam/Freewa re.htm
    • Siteliner • http://www.siteliner.com
    • Screaming Frog • http://www.screamingfrog.co.uk/seo-spider/
    • Lucène (java) • https://lucene.apache.org/
    • Nutch (java) • https://nutch.apache.org/
    • Scrapy (python) • http://scrapy.org/
    • 80legs • http://80legs.com/
    • Deepcrawl • http://deepcrawl.co.uk/
    • Botify • https://fr.botify.com/
    • DES QUESTIONS ?
    • Merci ! • Me contacter : Philippe YONNET Directeur Général de l’agence Search Foresight Groupe My Media 55 rue Anatole France – 92300 LEVALLOIS PERRET Philippe.yonnet@search-foresight.com Tél : 01 74 18 29 40 Président de l’association SEO Camp 24 avenue Ledru-Rollin 75012 PARIS Philippe.yonnet@seo-camp.org http://www.seo-camp.org