Screaming frog - l'outil ne fait pas l'artisan

Aymeric Bouillat
Aymeric BouillatConsultant SEO senior chez Novalem [Havas Media] at SEO Hackers
Screaming Frog
L’outil ne fait pas
l’artisan
Cycle technique
#seocampParis 2020 2
Aymeric Bouillat
Consultant SEO technique dans l’agence SEO (groupe )
• Des affinités avec le SEO technique
• Spécialiste des migrations de site
• Et un blog plus trop à jour…. https://www.yapasdequoi.com
Pour me suivre sur Twitter :
@aymerictwit
#seocampParis 2020 3
A quoi ça sert?
Analyse des balises
SEO
Extraction de données
précises dans les pages
Découverte des
problématiques de duplication
Examen des directives
pour les robots
Analyse des redirections
Crawl avec un
rendu JS, comme
Google
Détection des liens
cassés
Visualisation de l’architecture
d’un site et de son maillage
Connexions à des API (Search
Console, GA, Ahrefs, etc)
Génération de sitemaps
XML
#seocampParis 2020 4
3 choses à savoir
#seocampParis 2020
Quel mode de crawl?
5
#seocampParis 2020 6
Préférez le mode Base de données
• Un crawl, c’est gourmand ! (Configuration > Storage mode)
• Memory = 3Go min.  crawls de moins de 100.000 URL : plus rapide, moins souple
• Database storage = avoir un disque SSD : plus souple, permet le crawl de gros sites
#seocampParis 2020 7
Database storage : mode « projet »
• Gérer ses crawls par client (File > Crawls )
Penser à faire le ménage
de temps en temps
#seocampParis 2020
Préparer son crawl
avant de se lancer
8
#seocampParis 2020 9
Ne pas oublier !
• Utiliser la commande « site: »
• Faire un « précrawl » avant le crawl complet
• Prévenir le client ou l’hébergeur (éviter la blacklist)
• Sauvegarder sa configuration
#seocampParis 2020 10
Database storage : mode « projet »
• Définir ce que l’on souhaite crawler, et stocker
•  Store permet de conserver toutes les relations (liens entrants et sortants)
• Objectif : Limiter le poids des fichiers dans la base de données
#seocampParis 2020 11
Comportement du crawler
Si il ne fallait en retenir que 6 :
• Configuration « User-agent » : dynamic serving /site mobile dédié
• Craw Linked Xml Sitemaps(onglet « Crawl »)
• Extraction JSON-LD +microdata (onglet « Extraction »)
• Store HTML/rendered HTML (onglet « Extraction »)
• Effectuer un rendu JS (onglet « Rendering »)
• Respect « canonical » & « noindex » en fonction des besoins…(Onglet
« Advanced »)
Aucun crawl ne se ressemble…
#seocampParis 2020 12
Modifier des URL à la volée
Case study
 HTTP vers HTTPS
 Suppression du #, ex:
/faq#question1
/faq#question2
(avec le rendu JS, les URL avec # sont
explorées, on va regrouper les signaux)
#seocampParis 2020 13
Site en développement
Menu Configuration > Authentification
2 méthodes :
Authentification serveur standard
ou
Formulaire de login
• Adapter le robots.txt si nécessaire
• Informer client/hébergeur de l’IP et de l’UA utilisé
Penser à
l’exclusion des
URL « touchy »
#seocampParis 2020
• « Let’s crawl by night » !
• Crawl régulier (utile pour faire des comparaisons)
• Possibilité de générer des exports auto (csv, xlsx,..)
• Génération automatisée de sitemaps
14
Et le crawl programmable?
#seocampParis 2020 15
Crawl sans interface !
• Pas d’interface graphique =
Idéal pour un serveur
Préparer un fichier de configuration et générer
ses exports automatiquement !
--config "C:UsersAymeric.BouillatCrawlsconfig-mobile.seospidercon
#seocampParis 2020
Il manquerait pas quelque chose?
16
#seocampParis 2020 17
A la pêche aux données : scrappons!
Extraire des données des pages Web, pour qualifier, analyser et optimiser!
Fil d’Ariane
Nombre
d’avis
Stock
Descriptif
Code de
tracking GA
Le type de page (ex:
listing, produit, édito, etc.)
Nombre de
commentaires
#seocampParis 2020 18
Exemples d’utilisations SEO
Récupérer des éléments précis sur une page Web:
Fil d’Ariane (ex: qualifier/organiser ses URL)
Détecter des typologies de pages
Sur un site e-commerce
l’état en stock d’un produit (disponibilité / liens vers des produits épuisés)
le nombre d’avis sur un produit (pages produits avec peu d’avis)
le nombre de commentaires
Sur un site de contenu
le nom de l’auteur d’un article
la date de publication d’un article
Et en général:
le nombre de blocs catégories
le contenu principal (contenu d’un paragraphe précis)
les données Opengraph/TwitterCards
les URL des vidéos Youtube
etc.
Cf. « Annexe scraping » en fin de
présentation
#seocampParis 2020
Analyse & interprétation
19
#seocampParis 2020 20
Attention aux erreurs d’interprétation
Profondeur des URL
Près d’un tiers de vos URL sont accessibles en 4
clics depuis la page d’accueil.
C’est très grave d’un point de vue maillage.
La majeure partie des URL en profondeur 4 sont
des URL d’ images (liens vers des images), ça va…
#seocampParis 2020 21
Problématiques d’URL
Focus sur les paramètres d’URL (ex: tri, filtre, pagination etc.)
 Pertinence des URL (si indexables)
 C’est pas parce qu’il y a écrit « canonical » que c’est bien ! (ex: pagination vers la 1ere page…)
#seocampParis 2020 22
Codes réponse : par typologie de page/URL
Beaucoup de redirections?
- similarité entre les redirections (pages de
destination)
- source des redirections (lien ? Canonical ?
hreflang ? AMP ? )
- erreur de lien? La page de destination
existe peut être !
#seocampParis 2020 23
Redirections 301
Un poisson peut en cacher un autre
Une redirection aussi peut en
cacher une autre...
#seocampParis 2020 24
Regrouper les redirections par type
#seocampParis 2020 25
Pas d’erreurs 404 ?
Ça n’est pas forcément bon signe…!
#seocampParis 2020 26
Attention aux softs 404
 Tester des URL inexistantes et regarder le code réponse. Ex: /url-qui-n-existe-pas
Statut HTTP de l’URL en 200 ?
(et non 404)
#seocampParis 2020 27
Retrouver le chemin
Ex: Retrouver l’origine d’un lien cassé  Clic-droit puis « Crawl Path Report »
#seocampParis 2020 28
Et les balises <title>…</title>?
Beaucoup de duplicate au premier abord? mais il peut être « logique » (ex: pagination)
#seocampParis 2020 29
Faire des exclusions pour y voir + clair
Pour voir toutes les URL qui ne contiennent pas « page=… »
^((?!page=).)*$  Afficher les URL ne contenant pas « page= » via une regexp.
#seocampParis 2020 30
Contenu dupliqué
Un nouvel onglet dans Screaming Frog !
Comparer les différences
entre 2 pages très
similaires
#seocampParis 2020 31
Trop de similarité à cause d’un mega-menu ?
Ne pas tenir compte de certains éléments HTML, c’est possible 
#seocampParis 2020
Visualisation
32
#seocampParis 2020 33
Maillage
Maillage interne : bien ou pas? Ça dépend de ce qu’on regarde
Attention : ne représente pas l’intégralité
des liens, mais juste le chemin le + court
pour accéder à chaque URL
#seocampParis 2020 34
Visualisation
Mettre en avant des défauts de maillage, ou identifier des pages en fonctions de certains KPI
• Voir si des URL fortement maillées ne sont pas indexables
(Canonical, redirection, noindex)  perte de PageRank
interne
• Voir où se situent dans le maillage les URL qui
génèrent le plus de trafic
• Link score : page rank interne de
screaming Frog
#seocampParis 2020 35
Perte de jus
Dilution de la popularité vers des pages en noindex (en rouge) :
#seocampParis 2020 36
Mieux comprendre le maillage d’une page
Ancres de liens : renforcer les variations sémantiques
#seocampParis 2020 37
Principales occurrences d’un contenu
Avoir préalablement coché la case
« Store HTML » de l’onglet « Extraction »
lors de la config du crawl
#seocampParis 2020
Allons plus loin!
38
#seocampParis 2020 39
+ de données avec une analyse de crawl
Menu « Crawl analysis »  « Start »
Voir les URL non maillées détectées
par ailleurs (hreflang, canonical,
sitemap, AMP, API, etc.)
#seocampParis 2020 40
URL non maillées
URL introuvables lors du crawl mais existantes par ailleurs
URL n’ayant jamais reçu de liens
URL ne recevant plus de liens
 Renforcer le maillage
#seocampParis 2020 41
Orphan URL via les API
Permet de mettre en avant les URL présentes dans le sitemap, mais aussi la Search Console,
Google Analytics, et qui n’ont pas été trouvées lors du crawl. (cf. les onglets correspondants)
#seocampParis 2020 42
Question Mug
Quel est le dernier onglet qui a vu le jour en Juillet 2020 dans
Screaming Frog ?
#seocampParis 2020 43
Réponse Mug
L’onglet « Content » !
On peut même faire de la détection de fautes de grammaire et d’orthographe :
#seocampParis 2020
Merci!
Des questions?
44
Pour me suivre sur Twitter : @aymerictwit
MERCI AUX SPONSORS
#seocampParis 2020 45
#seocampParis 2020
Annexe Scraping
46
#seocampParis 2020 47
Paramétrage de l’extraction
Rechercher un élément via:
- Texte
- Expression régulière
Rechercher via
- Xpath (<3)
- Un sélecteur CSS
#seocampParis 2020 48
Type d’éléments à extraire
<div class="bloc-content-title">
<div class="bloc-title-readmore">
<a href="/news" class="read-more-title"><i
class="fa fa-arrow-circle-o-right"></i> Voir
plus</a>
</div>
<h2 class="ellipsis ellipsis-1l">News</h2>
</div>
<div class="bloc-content-title">
<div class="bloc-title-readmore">
<a href="/news" class="read-more-title"><i
class="fa fa-arrow-circle-o-right"></i> Voir
plus</a>
</div>
<h2 class="ellipsis ellipsis-1l">News</h2>
</div>
<div class="bloc-title-readmore">
<a href="/news" class="read-more-title"><i
class="fa fa-arrow-circle-o-right"></i> Voir
plus</a>
</div>
<h2 class="ellipsis ellipsis-1l">News</h2>
Voir plus News
//div[@class=“bloc-content-title“]
#seocampParis 2020 49
Exemples Xpath vs HTML
//div[@id="wayfinding-breadcrumbs_feature_div"]/li[not(@class)]
//ul[@class="a-unordered-list a-vertical a-spacing-mini"]/li/span
//span[@id="acrCustomerReviewText"]
(//span[@class="a-icon-alt"])[1]  la première balise de ce type
//div[@id="availability"]/span
Descriptif
Nbe
commentaires
Nbe avis
Stock
Fil d’Ariane
https://devhints.io/xpathAntisèche :
1 of 49

Recommended

SEO Lanta : gagnez l'aventure des SERP by
SEO Lanta : gagnez l'aventure des SERPSEO Lanta : gagnez l'aventure des SERP
SEO Lanta : gagnez l'aventure des SERPAymeric Bouillat
227 views51 slides
Les mythes et légendes du SEO - WebIsland Nantes 2022.pdf by
Les mythes et légendes du SEO - WebIsland Nantes 2022.pdfLes mythes et légendes du SEO - WebIsland Nantes 2022.pdf
Les mythes et légendes du SEO - WebIsland Nantes 2022.pdfNicolas AUDEMAR
365 views49 slides
SEO Audit by
SEO Audit SEO Audit
SEO Audit Webbed Marketing
15K views34 slides
SEO Audit Report by Howl India for client by
SEO Audit Report by Howl  India for clientSEO Audit Report by Howl  India for client
SEO Audit Report by Howl India for clientShrikant Subramaniam
205 views28 slides
SEO Sample Report by
SEO Sample ReportSEO Sample Report
SEO Sample ReportBelmond Victor
26.8K views9 slides
External Backlink Analysis by
External Backlink AnalysisExternal Backlink Analysis
External Backlink AnalysisJames Allen
998 views14 slides

More Related Content

What's hot

Seo strategy guide 2019 by
Seo strategy guide 2019Seo strategy guide 2019
Seo strategy guide 2019Sanjay Patwal
187 views27 slides
Website Analysis Seo Report by
Website Analysis Seo ReportWebsite Analysis Seo Report
Website Analysis Seo ReportSEO Google Guru
6.8K views29 slides
Django 봄은 다시 온다 - Django와 함께 좋은 웹서비스 코드 만들기.pdf by
Django 봄은 다시 온다 - Django와 함께 좋은 웹서비스 코드 만들기.pdfDjango 봄은 다시 온다 - Django와 함께 좋은 웹서비스 코드 만들기.pdf
Django 봄은 다시 온다 - Django와 함께 좋은 웹서비스 코드 만들기.pdfKyoung Up Jung
223 views29 slides
A Complete SEO Audit Template. Includes Actionable Tips & Insights by
A Complete SEO Audit Template. Includes Actionable Tips & InsightsA Complete SEO Audit Template. Includes Actionable Tips & Insights
A Complete SEO Audit Template. Includes Actionable Tips & InsightsWeb Marketing Academy. Digital Marketing Training Bangalore
1K views30 slides
Technical seo tips for web developers by
Technical seo tips for web developersTechnical seo tips for web developers
Technical seo tips for web developersSingsys Pte Ltd
1.6K views28 slides
Google Tag Manager (GTM) by
Google Tag Manager (GTM)Google Tag Manager (GTM)
Google Tag Manager (GTM)Dragos Ionita
3.2K views32 slides

What's hot(20)

Django 봄은 다시 온다 - Django와 함께 좋은 웹서비스 코드 만들기.pdf by Kyoung Up Jung
Django 봄은 다시 온다 - Django와 함께 좋은 웹서비스 코드 만들기.pdfDjango 봄은 다시 온다 - Django와 함께 좋은 웹서비스 코드 만들기.pdf
Django 봄은 다시 온다 - Django와 함께 좋은 웹서비스 코드 만들기.pdf
Kyoung Up Jung223 views
Technical seo tips for web developers by Singsys Pte Ltd
Technical seo tips for web developersTechnical seo tips for web developers
Technical seo tips for web developers
Singsys Pte Ltd1.6K views
Google Tag Manager (GTM) by Dragos Ionita
Google Tag Manager (GTM)Google Tag Manager (GTM)
Google Tag Manager (GTM)
Dragos Ionita3.2K views
SEO-Campixx 2022 | Suchoperatoren auf Steroiden by Paul Schreiner
SEO-Campixx 2022 | Suchoperatoren auf SteroidenSEO-Campixx 2022 | Suchoperatoren auf Steroiden
SEO-Campixx 2022 | Suchoperatoren auf Steroiden
Paul Schreiner2.9K views
24 ways-backlinking by John Yadav
24 ways-backlinking24 ways-backlinking
24 ways-backlinking
John Yadav12.4K views
Off Page SEO Strategies by Shimanto Arif
Off Page SEO StrategiesOff Page SEO Strategies
Off Page SEO Strategies
Shimanto Arif2.1K views
The 30 Minute Website Audit - Using Google to Make Your Website More Effective by WebLink International
The 30 Minute Website Audit - Using Google to Make Your Website More EffectiveThe 30 Minute Website Audit - Using Google to Make Your Website More Effective
The 30 Minute Website Audit - Using Google to Make Your Website More Effective
SignalR for ASP.NET Developers by Shivanand Arur
SignalR for ASP.NET DevelopersSignalR for ASP.NET Developers
SignalR for ASP.NET Developers
Shivanand Arur6.9K views
SEO for Ecommerce: A Comprehensive Guide by Adam Audette
SEO for Ecommerce: A Comprehensive GuideSEO for Ecommerce: A Comprehensive Guide
SEO for Ecommerce: A Comprehensive Guide
Adam Audette86.5K views
Website Analysis Report by AuroIN
Website Analysis ReportWebsite Analysis Report
Website Analysis Report
AuroIN8.1K views

Similar to Screaming frog - l'outil ne fait pas l'artisan

Utilisation avancée d'un crawler - SEO Camp'us 2015 by
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Philippe YONNET
7.1K views60 slides
Drupal SEO - Optimiser son site by
Drupal SEO - Optimiser son siteDrupal SEO - Optimiser son site
Drupal SEO - Optimiser son siteStéphane ARRAMI
9.3K views78 slides
Cours referencement optimisation by
Cours referencement optimisationCours referencement optimisation
Cours referencement optimisationRémi Bachelet
1.3K views27 slides
Cours SEO / Référencement Naturel - août 2013 by
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Pierre Ammeloot
5.5K views48 slides
La casa de SEO : les questions à se poser pour le casse SEO parfait by
La casa de SEO : les questions à se poser pour le casse SEO parfaitLa casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfaitAymeric Bouillat
3.2K views68 slides
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017 by
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017Peak Ace
7K views54 slides

Similar to Screaming frog - l'outil ne fait pas l'artisan(20)

Utilisation avancée d'un crawler - SEO Camp'us 2015 by Philippe YONNET
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015
Philippe YONNET7.1K views
Cours referencement optimisation by Rémi Bachelet
Cours referencement optimisationCours referencement optimisation
Cours referencement optimisation
Rémi Bachelet1.3K views
Cours SEO / Référencement Naturel - août 2013 by Pierre Ammeloot
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013
Pierre Ammeloot5.5K views
La casa de SEO : les questions à se poser pour le casse SEO parfait by Aymeric Bouillat
La casa de SEO : les questions à se poser pour le casse SEO parfaitLa casa de SEO : les questions à se poser pour le casse SEO parfait
La casa de SEO : les questions à se poser pour le casse SEO parfait
Aymeric Bouillat3.2K views
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017 by Peak Ace
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Peak Ace7K views
Choisir une solution e commerce compatible seo : quelle plateforme vous perme... by Philippe YONNET
Choisir une solution e commerce compatible seo : quelle plateforme vous perme...Choisir une solution e commerce compatible seo : quelle plateforme vous perme...
Choisir une solution e commerce compatible seo : quelle plateforme vous perme...
Philippe YONNET6.3K views
Seocamp2016 : javascript et indexation, où en est-on ? by Madeline Pinthon
Seocamp2016 : javascript et indexation, où en est-on ?Seocamp2016 : javascript et indexation, où en est-on ?
Seocamp2016 : javascript et indexation, où en est-on ?
Madeline Pinthon3.7K views
Cours SEO débutant Polycom Lausanne by Pierre Ammeloot
Cours SEO débutant Polycom LausanneCours SEO débutant Polycom Lausanne
Cours SEO débutant Polycom Lausanne
Pierre Ammeloot2.5K views
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier by La Cuisine du Web
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-ArvierLe SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
Le SEO expliqué aux développeurs - Jean-Baptiste Marchand-Arvier
La Cuisine du Web1.4K views
Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois ! by David Dragesco
Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !
Comment un e-commerçant a multiplié son trafic SEO par 9,8 en 12 mois !
David Dragesco12.7K views
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016 by iProspect France
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016
Javascript et indexation, où en est-on ? - SEO Camp'us Paris 2016
iProspect France11.6K views
Livre blanc de sensibilisation au SEO by Kseo Conseil
Livre blanc de sensibilisation au SEOLivre blanc de sensibilisation au SEO
Livre blanc de sensibilisation au SEO
Kseo Conseil91 views
Les bonnes pratiques SEO avec PrestaShop et WordPress - CCI Montpellier by Nicolas Mercatili
Les bonnes pratiques SEO avec PrestaShop et WordPress - CCI MontpellierLes bonnes pratiques SEO avec PrestaShop et WordPress - CCI Montpellier
Les bonnes pratiques SEO avec PrestaShop et WordPress - CCI Montpellier
Nicolas Mercatili2.9K views
Moteurs de recherche et optimisation de classement by Guillaume Kulakowski
Moteurs de recherche et optimisation de classementMoteurs de recherche et optimisation de classement
Moteurs de recherche et optimisation de classement
Webconférence SEO le 22 Novembre : Comment optimiser un site Demandware pour ... by Peak Ace
Webconférence SEO le 22 Novembre : Comment optimiser un site Demandware pour ...Webconférence SEO le 22 Novembre : Comment optimiser un site Demandware pour ...
Webconférence SEO le 22 Novembre : Comment optimiser un site Demandware pour ...
Peak Ace870 views
Evolutions et nouveaux outils SEO by Dimitri Brunel
Evolutions et nouveaux outils SEOEvolutions et nouveaux outils SEO
Evolutions et nouveaux outils SEO
Dimitri Brunel6.2K views
Tripler son CA grâce au seo - Emmanuel De Vauxmoret - SEO Camp'us Paris 2020 by SEO CAMP
Tripler son CA grâce au seo - Emmanuel De Vauxmoret - SEO Camp'us Paris 2020Tripler son CA grâce au seo - Emmanuel De Vauxmoret - SEO Camp'us Paris 2020
Tripler son CA grâce au seo - Emmanuel De Vauxmoret - SEO Camp'us Paris 2020
SEO CAMP190 views

More from Aymeric Bouillat

Dans la jungle des sites mobiles - comment les rendre (vraiment) SEO-friendly ? by
Dans la jungle des sites mobiles  - comment les rendre (vraiment) SEO-friendly ?Dans la jungle des sites mobiles  - comment les rendre (vraiment) SEO-friendly ?
Dans la jungle des sites mobiles - comment les rendre (vraiment) SEO-friendly ?Aymeric Bouillat
545 views44 slides
Mystères et associés dans les résultats de Google by
Mystères et associés dans les résultats de GoogleMystères et associés dans les résultats de Google
Mystères et associés dans les résultats de GoogleAymeric Bouillat
294 views32 slides
La mise en cache et ses secrets by
La mise en cache et ses secretsLa mise en cache et ses secrets
La mise en cache et ses secretsAymeric Bouillat
7.3K views44 slides
Migration seo - astuces techniques pour améliorer votre trafic by
Migration seo - astuces techniques pour améliorer votre traficMigration seo - astuces techniques pour améliorer votre trafic
Migration seo - astuces techniques pour améliorer votre traficAymeric Bouillat
2.7K views47 slides
Netlinking en 2015 by
Netlinking en 2015Netlinking en 2015
Netlinking en 2015Aymeric Bouillat
349 views6 slides
Seo mobile - bonnes pratiques by
Seo mobile -  bonnes pratiquesSeo mobile -  bonnes pratiques
Seo mobile - bonnes pratiquesAymeric Bouillat
1K views20 slides

More from Aymeric Bouillat(7)

Dans la jungle des sites mobiles - comment les rendre (vraiment) SEO-friendly ? by Aymeric Bouillat
Dans la jungle des sites mobiles  - comment les rendre (vraiment) SEO-friendly ?Dans la jungle des sites mobiles  - comment les rendre (vraiment) SEO-friendly ?
Dans la jungle des sites mobiles - comment les rendre (vraiment) SEO-friendly ?
Aymeric Bouillat545 views
Mystères et associés dans les résultats de Google by Aymeric Bouillat
Mystères et associés dans les résultats de GoogleMystères et associés dans les résultats de Google
Mystères et associés dans les résultats de Google
Aymeric Bouillat294 views
Migration seo - astuces techniques pour améliorer votre trafic by Aymeric Bouillat
Migration seo - astuces techniques pour améliorer votre traficMigration seo - astuces techniques pour améliorer votre trafic
Migration seo - astuces techniques pour améliorer votre trafic
Aymeric Bouillat2.7K views
Site mobile et SEO - les erreurs à ne pas commettre by Aymeric Bouillat
Site mobile et SEO - les erreurs à ne pas commettreSite mobile et SEO - les erreurs à ne pas commettre
Site mobile et SEO - les erreurs à ne pas commettre
Aymeric Bouillat5K views

Screaming frog - l'outil ne fait pas l'artisan

  • 1. Screaming Frog L’outil ne fait pas l’artisan Cycle technique
  • 2. #seocampParis 2020 2 Aymeric Bouillat Consultant SEO technique dans l’agence SEO (groupe ) • Des affinités avec le SEO technique • Spécialiste des migrations de site • Et un blog plus trop à jour…. https://www.yapasdequoi.com Pour me suivre sur Twitter : @aymerictwit
  • 3. #seocampParis 2020 3 A quoi ça sert? Analyse des balises SEO Extraction de données précises dans les pages Découverte des problématiques de duplication Examen des directives pour les robots Analyse des redirections Crawl avec un rendu JS, comme Google Détection des liens cassés Visualisation de l’architecture d’un site et de son maillage Connexions à des API (Search Console, GA, Ahrefs, etc) Génération de sitemaps XML
  • 4. #seocampParis 2020 4 3 choses à savoir
  • 6. #seocampParis 2020 6 Préférez le mode Base de données • Un crawl, c’est gourmand ! (Configuration > Storage mode) • Memory = 3Go min.  crawls de moins de 100.000 URL : plus rapide, moins souple • Database storage = avoir un disque SSD : plus souple, permet le crawl de gros sites
  • 7. #seocampParis 2020 7 Database storage : mode « projet » • Gérer ses crawls par client (File > Crawls ) Penser à faire le ménage de temps en temps
  • 8. #seocampParis 2020 Préparer son crawl avant de se lancer 8
  • 9. #seocampParis 2020 9 Ne pas oublier ! • Utiliser la commande « site: » • Faire un « précrawl » avant le crawl complet • Prévenir le client ou l’hébergeur (éviter la blacklist) • Sauvegarder sa configuration
  • 10. #seocampParis 2020 10 Database storage : mode « projet » • Définir ce que l’on souhaite crawler, et stocker •  Store permet de conserver toutes les relations (liens entrants et sortants) • Objectif : Limiter le poids des fichiers dans la base de données
  • 11. #seocampParis 2020 11 Comportement du crawler Si il ne fallait en retenir que 6 : • Configuration « User-agent » : dynamic serving /site mobile dédié • Craw Linked Xml Sitemaps(onglet « Crawl ») • Extraction JSON-LD +microdata (onglet « Extraction ») • Store HTML/rendered HTML (onglet « Extraction ») • Effectuer un rendu JS (onglet « Rendering ») • Respect « canonical » & « noindex » en fonction des besoins…(Onglet « Advanced ») Aucun crawl ne se ressemble…
  • 12. #seocampParis 2020 12 Modifier des URL à la volée Case study  HTTP vers HTTPS  Suppression du #, ex: /faq#question1 /faq#question2 (avec le rendu JS, les URL avec # sont explorées, on va regrouper les signaux)
  • 13. #seocampParis 2020 13 Site en développement Menu Configuration > Authentification 2 méthodes : Authentification serveur standard ou Formulaire de login • Adapter le robots.txt si nécessaire • Informer client/hébergeur de l’IP et de l’UA utilisé Penser à l’exclusion des URL « touchy »
  • 14. #seocampParis 2020 • « Let’s crawl by night » ! • Crawl régulier (utile pour faire des comparaisons) • Possibilité de générer des exports auto (csv, xlsx,..) • Génération automatisée de sitemaps 14 Et le crawl programmable?
  • 15. #seocampParis 2020 15 Crawl sans interface ! • Pas d’interface graphique = Idéal pour un serveur Préparer un fichier de configuration et générer ses exports automatiquement ! --config "C:UsersAymeric.BouillatCrawlsconfig-mobile.seospidercon
  • 16. #seocampParis 2020 Il manquerait pas quelque chose? 16
  • 17. #seocampParis 2020 17 A la pêche aux données : scrappons! Extraire des données des pages Web, pour qualifier, analyser et optimiser! Fil d’Ariane Nombre d’avis Stock Descriptif Code de tracking GA Le type de page (ex: listing, produit, édito, etc.) Nombre de commentaires
  • 18. #seocampParis 2020 18 Exemples d’utilisations SEO Récupérer des éléments précis sur une page Web: Fil d’Ariane (ex: qualifier/organiser ses URL) Détecter des typologies de pages Sur un site e-commerce l’état en stock d’un produit (disponibilité / liens vers des produits épuisés) le nombre d’avis sur un produit (pages produits avec peu d’avis) le nombre de commentaires Sur un site de contenu le nom de l’auteur d’un article la date de publication d’un article Et en général: le nombre de blocs catégories le contenu principal (contenu d’un paragraphe précis) les données Opengraph/TwitterCards les URL des vidéos Youtube etc. Cf. « Annexe scraping » en fin de présentation
  • 19. #seocampParis 2020 Analyse & interprétation 19
  • 20. #seocampParis 2020 20 Attention aux erreurs d’interprétation Profondeur des URL Près d’un tiers de vos URL sont accessibles en 4 clics depuis la page d’accueil. C’est très grave d’un point de vue maillage. La majeure partie des URL en profondeur 4 sont des URL d’ images (liens vers des images), ça va…
  • 21. #seocampParis 2020 21 Problématiques d’URL Focus sur les paramètres d’URL (ex: tri, filtre, pagination etc.)  Pertinence des URL (si indexables)  C’est pas parce qu’il y a écrit « canonical » que c’est bien ! (ex: pagination vers la 1ere page…)
  • 22. #seocampParis 2020 22 Codes réponse : par typologie de page/URL Beaucoup de redirections? - similarité entre les redirections (pages de destination) - source des redirections (lien ? Canonical ? hreflang ? AMP ? ) - erreur de lien? La page de destination existe peut être !
  • 23. #seocampParis 2020 23 Redirections 301 Un poisson peut en cacher un autre Une redirection aussi peut en cacher une autre...
  • 24. #seocampParis 2020 24 Regrouper les redirections par type
  • 25. #seocampParis 2020 25 Pas d’erreurs 404 ? Ça n’est pas forcément bon signe…!
  • 26. #seocampParis 2020 26 Attention aux softs 404  Tester des URL inexistantes et regarder le code réponse. Ex: /url-qui-n-existe-pas Statut HTTP de l’URL en 200 ? (et non 404)
  • 27. #seocampParis 2020 27 Retrouver le chemin Ex: Retrouver l’origine d’un lien cassé  Clic-droit puis « Crawl Path Report »
  • 28. #seocampParis 2020 28 Et les balises <title>…</title>? Beaucoup de duplicate au premier abord? mais il peut être « logique » (ex: pagination)
  • 29. #seocampParis 2020 29 Faire des exclusions pour y voir + clair Pour voir toutes les URL qui ne contiennent pas « page=… » ^((?!page=).)*$  Afficher les URL ne contenant pas « page= » via une regexp.
  • 30. #seocampParis 2020 30 Contenu dupliqué Un nouvel onglet dans Screaming Frog ! Comparer les différences entre 2 pages très similaires
  • 31. #seocampParis 2020 31 Trop de similarité à cause d’un mega-menu ? Ne pas tenir compte de certains éléments HTML, c’est possible 
  • 33. #seocampParis 2020 33 Maillage Maillage interne : bien ou pas? Ça dépend de ce qu’on regarde Attention : ne représente pas l’intégralité des liens, mais juste le chemin le + court pour accéder à chaque URL
  • 34. #seocampParis 2020 34 Visualisation Mettre en avant des défauts de maillage, ou identifier des pages en fonctions de certains KPI • Voir si des URL fortement maillées ne sont pas indexables (Canonical, redirection, noindex)  perte de PageRank interne • Voir où se situent dans le maillage les URL qui génèrent le plus de trafic • Link score : page rank interne de screaming Frog
  • 35. #seocampParis 2020 35 Perte de jus Dilution de la popularité vers des pages en noindex (en rouge) :
  • 36. #seocampParis 2020 36 Mieux comprendre le maillage d’une page Ancres de liens : renforcer les variations sémantiques
  • 37. #seocampParis 2020 37 Principales occurrences d’un contenu Avoir préalablement coché la case « Store HTML » de l’onglet « Extraction » lors de la config du crawl
  • 39. #seocampParis 2020 39 + de données avec une analyse de crawl Menu « Crawl analysis »  « Start » Voir les URL non maillées détectées par ailleurs (hreflang, canonical, sitemap, AMP, API, etc.)
  • 40. #seocampParis 2020 40 URL non maillées URL introuvables lors du crawl mais existantes par ailleurs URL n’ayant jamais reçu de liens URL ne recevant plus de liens  Renforcer le maillage
  • 41. #seocampParis 2020 41 Orphan URL via les API Permet de mettre en avant les URL présentes dans le sitemap, mais aussi la Search Console, Google Analytics, et qui n’ont pas été trouvées lors du crawl. (cf. les onglets correspondants)
  • 42. #seocampParis 2020 42 Question Mug Quel est le dernier onglet qui a vu le jour en Juillet 2020 dans Screaming Frog ?
  • 43. #seocampParis 2020 43 Réponse Mug L’onglet « Content » ! On peut même faire de la détection de fautes de grammaire et d’orthographe :
  • 44. #seocampParis 2020 Merci! Des questions? 44 Pour me suivre sur Twitter : @aymerictwit
  • 47. #seocampParis 2020 47 Paramétrage de l’extraction Rechercher un élément via: - Texte - Expression régulière Rechercher via - Xpath (<3) - Un sélecteur CSS
  • 48. #seocampParis 2020 48 Type d’éléments à extraire <div class="bloc-content-title"> <div class="bloc-title-readmore"> <a href="/news" class="read-more-title"><i class="fa fa-arrow-circle-o-right"></i> Voir plus</a> </div> <h2 class="ellipsis ellipsis-1l">News</h2> </div> <div class="bloc-content-title"> <div class="bloc-title-readmore"> <a href="/news" class="read-more-title"><i class="fa fa-arrow-circle-o-right"></i> Voir plus</a> </div> <h2 class="ellipsis ellipsis-1l">News</h2> </div> <div class="bloc-title-readmore"> <a href="/news" class="read-more-title"><i class="fa fa-arrow-circle-o-right"></i> Voir plus</a> </div> <h2 class="ellipsis ellipsis-1l">News</h2> Voir plus News //div[@class=“bloc-content-title“]
  • 49. #seocampParis 2020 49 Exemples Xpath vs HTML //div[@id="wayfinding-breadcrumbs_feature_div"]/li[not(@class)] //ul[@class="a-unordered-list a-vertical a-spacing-mini"]/li/span //span[@id="acrCustomerReviewText"] (//span[@class="a-icon-alt"])[1]  la première balise de ce type //div[@id="availability"]/span Descriptif Nbe commentaires Nbe avis Stock Fil d’Ariane https://devhints.io/xpathAntisèche :

Editor's Notes

  1. List, serp, crawl