SlideShare a Scribd company logo
1 of 9
Le crawl pour les développeurs
AFUP Reims
Mai 2018
Qui suis-je ?
Julien Deneuville
• 29 ans
• Monte des sites depuis ~2004
• SEO Pro depuis 2011
• Twitter : @diije
• Blog : databulle.com/blog
• Vélo
• Musique
Quelques références
©2018 – Tous droits réservés
Databulle – www.databulle.com
2
Qu’est-ce qu’un crawler ?
Un logiciel qui est capable de :
• Télécharger une page web
• En analyser le contenu
• En extraire des éléments
§ Les liens vers d’autres pages
§ Le title, le H1, la description …
• Stocker la liste des pages web à
traiter
• Stocker les résultats
©2018 – Tous droits réservés
Databulle – www.databulle.com
3
Bots & crawlers
©2018 – Tous droits réservés
Databulle – www.databulle.com
4
52%
du trafic mondial web mondial
provient des bots.
Source : Incapsula
Screaming Frog
Outil SEO de référence
Simple et pratique
Version gratuite (limitée à
500 URLs)
Version payante: £149,00/an
©2018 – Tous droits réservés
Databulle – www.databulle.com
5
https://www.screamingfrog.co.uk/seo-spider/
Liens cassés
Identifier les liens pointant vers des erreurs :
pages introuvables, redirections, erreurs serveur, …
©2018 – Tous droits réservés
Databulle – www.databulle.com
6
Liens cassés
©2018 – Tous droits réservés
Databulle – www.databulle.com
7
Répartition par
type de code
réponse
Filtre par type de
code réponse
Liste des liens
pointant vers l’URL
sélectionnée
D’autres cas d’utilisation
Vérifier l’accessibilité des contenus
Détecter le contenu dupliqué
S’assurer de la bonne réécriture des URLs
Vérifier la présence d’un tag sur une liste de pages
Comparer le HTML avant/après exécution du JavaScript
…
©2018 – Tous droits réservés
Databulle – www.databulle.com
8
Allez plus loin
Prenez de bonnes habitudes
• Améliorez vos recettes
• Validez vos mises en production
• Faites chauffer vos caches
Créez vos propres outils
• Par exemple avec Scrapy (en Python, désolé)
©2018 – Tous droits réservés
Databulle – www.databulle.com
9

More Related Content

Similar to Meetup AFUP Reims: Le crawl pour les développeurs

Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Pierre Ammeloot
 
5 conseils pour optimiser la visibilité de votre site par Naguib TOIHIRI
5 conseils pour optimiser la visibilité de votre site par Naguib TOIHIRI5 conseils pour optimiser la visibilité de votre site par Naguib TOIHIRI
5 conseils pour optimiser la visibilité de votre site par Naguib TOIHIRINaguib TOIHIRI
 
Synodiance > Outils SEO - Table Ronde EBG 11/06/2013
Synodiance > Outils SEO - Table Ronde EBG 11/06/2013Synodiance > Outils SEO - Table Ronde EBG 11/06/2013
Synodiance > Outils SEO - Table Ronde EBG 11/06/2013Search Foresight
 
COMMENT GOOGLE INTERPRÈTE-T-IL VOTRE SITE INTERNET ? LES ASTUCES POUR OPTIMIS...
COMMENT GOOGLE INTERPRÈTE-T-IL VOTRE SITE INTERNET ? LES ASTUCES POUR OPTIMIS...COMMENT GOOGLE INTERPRÈTE-T-IL VOTRE SITE INTERNET ? LES ASTUCES POUR OPTIMIS...
COMMENT GOOGLE INTERPRÈTE-T-IL VOTRE SITE INTERNET ? LES ASTUCES POUR OPTIMIS...WSI France
 
Synodiance > La nouvelle donne du SEO - 13/02/2015
Synodiance > La nouvelle donne du SEO - 13/02/2015Synodiance > La nouvelle donne du SEO - 13/02/2015
Synodiance > La nouvelle donne du SEO - 13/02/2015Search Foresight
 
Migration SEO et Refonte SEO : Êtes-vous sur d'avoir pensé à tout ? - Agence ...
Migration SEO et Refonte SEO : Êtes-vous sur d'avoir pensé à tout ? - Agence ...Migration SEO et Refonte SEO : Êtes-vous sur d'avoir pensé à tout ? - Agence ...
Migration SEO et Refonte SEO : Êtes-vous sur d'avoir pensé à tout ? - Agence ...Digimood - Agence SEO / SEA
 
20220328_-_Web_Island_-_SEO_Horrors_Stories.pptx
20220328_-_Web_Island_-_SEO_Horrors_Stories.pptx20220328_-_Web_Island_-_SEO_Horrors_Stories.pptx
20220328_-_Web_Island_-_SEO_Horrors_Stories.pptxDavid Groult
 
Les outils SEO ne servent à rien - SEOCamp'us 2018
Les outils SEO ne servent à rien - SEOCamp'us 2018Les outils SEO ne servent à rien - SEOCamp'us 2018
Les outils SEO ne servent à rien - SEOCamp'us 2018Daniel Roch - SeoMix
 
Présentation de Majestic SEO au SEO Camp Day Toulouse 2012
Présentation de Majestic SEO au SEO Camp Day Toulouse 2012Présentation de Majestic SEO au SEO Camp Day Toulouse 2012
Présentation de Majestic SEO au SEO Camp Day Toulouse 2012François GOUBE
 
[Apero seo] présentation on crawl myposeo et brioude internet
[Apero seo] présentation on crawl myposeo et brioude internet[Apero seo] présentation on crawl myposeo et brioude internet
[Apero seo] présentation on crawl myposeo et brioude internetBrioude Internet
 
tests, investigations et études SEO - Alexis Rylko - SEO CAMP'us Paris 2021
tests, investigations et études SEO - Alexis Rylko - SEO CAMP'us Paris 2021tests, investigations et études SEO - Alexis Rylko - SEO CAMP'us Paris 2021
tests, investigations et études SEO - Alexis Rylko - SEO CAMP'us Paris 2021SEO CAMP
 
IBM Cloud Paris Meetup - 20181016 - L'agilité à l'échelle
IBM Cloud Paris Meetup - 20181016 - L'agilité à l'échelleIBM Cloud Paris Meetup - 20181016 - L'agilité à l'échelle
IBM Cloud Paris Meetup - 20181016 - L'agilité à l'échelleIBM France Lab
 
OnCrawl Breakfast Paris 10/12/15
OnCrawl Breakfast Paris 10/12/15OnCrawl Breakfast Paris 10/12/15
OnCrawl Breakfast Paris 10/12/15Cogniteev
 
Utiliser un crawler pour le seo
Utiliser un crawler pour le seoUtiliser un crawler pour le seo
Utiliser un crawler pour le seoPhilippe YONNET
 
Seo 10 clés pour plaire à Google
Seo   10 clés pour plaire à GoogleSeo   10 clés pour plaire à Google
Seo 10 clés pour plaire à GoogleKeyweo
 
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014Search Foresight
 
Stratégies de Netlinking avancées
Stratégies de Netlinking avancéesStratégies de Netlinking avancées
Stratégies de Netlinking avancéesMajed Ayari
 
SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...
SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...
SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...Philippe YONNET
 

Similar to Meetup AFUP Reims: Le crawl pour les développeurs (20)

Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013Cours SEO / Référencement Naturel - août 2013
Cours SEO / Référencement Naturel - août 2013
 
5 conseils pour optimiser la visibilité de votre site par Naguib TOIHIRI
5 conseils pour optimiser la visibilité de votre site par Naguib TOIHIRI5 conseils pour optimiser la visibilité de votre site par Naguib TOIHIRI
5 conseils pour optimiser la visibilité de votre site par Naguib TOIHIRI
 
Synodiance > Outils SEO - Table Ronde EBG 11/06/2013
Synodiance > Outils SEO - Table Ronde EBG 11/06/2013Synodiance > Outils SEO - Table Ronde EBG 11/06/2013
Synodiance > Outils SEO - Table Ronde EBG 11/06/2013
 
Referencement moteur de-recherche
Referencement moteur de-rechercheReferencement moteur de-recherche
Referencement moteur de-recherche
 
COMMENT GOOGLE INTERPRÈTE-T-IL VOTRE SITE INTERNET ? LES ASTUCES POUR OPTIMIS...
COMMENT GOOGLE INTERPRÈTE-T-IL VOTRE SITE INTERNET ? LES ASTUCES POUR OPTIMIS...COMMENT GOOGLE INTERPRÈTE-T-IL VOTRE SITE INTERNET ? LES ASTUCES POUR OPTIMIS...
COMMENT GOOGLE INTERPRÈTE-T-IL VOTRE SITE INTERNET ? LES ASTUCES POUR OPTIMIS...
 
Synodiance > La nouvelle donne du SEO - 13/02/2015
Synodiance > La nouvelle donne du SEO - 13/02/2015Synodiance > La nouvelle donne du SEO - 13/02/2015
Synodiance > La nouvelle donne du SEO - 13/02/2015
 
Migration SEO et Refonte SEO : Êtes-vous sur d'avoir pensé à tout ? - Agence ...
Migration SEO et Refonte SEO : Êtes-vous sur d'avoir pensé à tout ? - Agence ...Migration SEO et Refonte SEO : Êtes-vous sur d'avoir pensé à tout ? - Agence ...
Migration SEO et Refonte SEO : Êtes-vous sur d'avoir pensé à tout ? - Agence ...
 
20220328_-_Web_Island_-_SEO_Horrors_Stories.pptx
20220328_-_Web_Island_-_SEO_Horrors_Stories.pptx20220328_-_Web_Island_-_SEO_Horrors_Stories.pptx
20220328_-_Web_Island_-_SEO_Horrors_Stories.pptx
 
Les outils SEO ne servent à rien - SEOCamp'us 2018
Les outils SEO ne servent à rien - SEOCamp'us 2018Les outils SEO ne servent à rien - SEOCamp'us 2018
Les outils SEO ne servent à rien - SEOCamp'us 2018
 
Présentation de Majestic SEO au SEO Camp Day Toulouse 2012
Présentation de Majestic SEO au SEO Camp Day Toulouse 2012Présentation de Majestic SEO au SEO Camp Day Toulouse 2012
Présentation de Majestic SEO au SEO Camp Day Toulouse 2012
 
[Apero seo] présentation on crawl myposeo et brioude internet
[Apero seo] présentation on crawl myposeo et brioude internet[Apero seo] présentation on crawl myposeo et brioude internet
[Apero seo] présentation on crawl myposeo et brioude internet
 
tests, investigations et études SEO - Alexis Rylko - SEO CAMP'us Paris 2021
tests, investigations et études SEO - Alexis Rylko - SEO CAMP'us Paris 2021tests, investigations et études SEO - Alexis Rylko - SEO CAMP'us Paris 2021
tests, investigations et études SEO - Alexis Rylko - SEO CAMP'us Paris 2021
 
IBM Cloud Paris Meetup - 20181016 - L'agilité à l'échelle
IBM Cloud Paris Meetup - 20181016 - L'agilité à l'échelleIBM Cloud Paris Meetup - 20181016 - L'agilité à l'échelle
IBM Cloud Paris Meetup - 20181016 - L'agilité à l'échelle
 
Google.alternatives
Google.alternativesGoogle.alternatives
Google.alternatives
 
OnCrawl Breakfast Paris 10/12/15
OnCrawl Breakfast Paris 10/12/15OnCrawl Breakfast Paris 10/12/15
OnCrawl Breakfast Paris 10/12/15
 
Utiliser un crawler pour le seo
Utiliser un crawler pour le seoUtiliser un crawler pour le seo
Utiliser un crawler pour le seo
 
Seo 10 clés pour plaire à Google
Seo   10 clés pour plaire à GoogleSeo   10 clés pour plaire à Google
Seo 10 clés pour plaire à Google
 
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
Synodiance > SEO - Tendances SEO - French Web - 01/12/2014
 
Stratégies de Netlinking avancées
Stratégies de Netlinking avancéesStratégies de Netlinking avancées
Stratégies de Netlinking avancées
 
SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...
SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...
SEO : Presentation licence pro mulhouse oct 2014 - histoire du métier de réfé...
 

More from Julien Deneuville

Monitoring SEO : dormez tranquille !
Monitoring SEO : dormez tranquille !Monitoring SEO : dormez tranquille !
Monitoring SEO : dormez tranquille !Julien Deneuville
 
En route vers le Data+SEO [SEO Camp'US 2019]
En route vers le Data+SEO [SEO Camp'US 2019]En route vers le Data+SEO [SEO Camp'US 2019]
En route vers le Data+SEO [SEO Camp'US 2019]Julien Deneuville
 
De la Data pour le SEO - QueDuWeb 2016
De la Data pour le SEO - QueDuWeb 2016De la Data pour le SEO - QueDuWeb 2016
De la Data pour le SEO - QueDuWeb 2016Julien Deneuville
 
Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016Julien Deneuville
 
Analyse de logs SEO : pour qui, pour quoi, comment ?
Analyse de logs SEO : pour qui, pour quoi, comment ?Analyse de logs SEO : pour qui, pour quoi, comment ?
Analyse de logs SEO : pour qui, pour quoi, comment ?Julien Deneuville
 
Netlinking : de vraies solutions pour 2014 (Meetup SEO France du 15/01/14)
Netlinking : de vraies solutions pour 2014 (Meetup SEO France du 15/01/14)Netlinking : de vraies solutions pour 2014 (Meetup SEO France du 15/01/14)
Netlinking : de vraies solutions pour 2014 (Meetup SEO France du 15/01/14)Julien Deneuville
 

More from Julien Deneuville (8)

Monitoring SEO : dormez tranquille !
Monitoring SEO : dormez tranquille !Monitoring SEO : dormez tranquille !
Monitoring SEO : dormez tranquille !
 
En route vers le Data+SEO [SEO Camp'US 2019]
En route vers le Data+SEO [SEO Camp'US 2019]En route vers le Data+SEO [SEO Camp'US 2019]
En route vers le Data+SEO [SEO Camp'US 2019]
 
De la Data pour le SEO - QueDuWeb 2016
De la Data pour le SEO - QueDuWeb 2016De la Data pour le SEO - QueDuWeb 2016
De la Data pour le SEO - QueDuWeb 2016
 
Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016Machine Learning & SEO - SEO Camp'Us Paris 2016
Machine Learning & SEO - SEO Camp'Us Paris 2016
 
Analyse de logs SEO : pour qui, pour quoi, comment ?
Analyse de logs SEO : pour qui, pour quoi, comment ?Analyse de logs SEO : pour qui, pour quoi, comment ?
Analyse de logs SEO : pour qui, pour quoi, comment ?
 
Netlinking : de vraies solutions pour 2014 (Meetup SEO France du 15/01/14)
Netlinking : de vraies solutions pour 2014 (Meetup SEO France du 15/01/14)Netlinking : de vraies solutions pour 2014 (Meetup SEO France du 15/01/14)
Netlinking : de vraies solutions pour 2014 (Meetup SEO France du 15/01/14)
 
Art Your Mind
Art Your MindArt Your Mind
Art Your Mind
 
Coca Cola : Stratégie SMM
Coca Cola : Stratégie SMMCoca Cola : Stratégie SMM
Coca Cola : Stratégie SMM
 

Meetup AFUP Reims: Le crawl pour les développeurs

  • 1. Le crawl pour les développeurs AFUP Reims Mai 2018
  • 2. Qui suis-je ? Julien Deneuville • 29 ans • Monte des sites depuis ~2004 • SEO Pro depuis 2011 • Twitter : @diije • Blog : databulle.com/blog • Vélo • Musique Quelques références ©2018 – Tous droits réservés Databulle – www.databulle.com 2
  • 3. Qu’est-ce qu’un crawler ? Un logiciel qui est capable de : • Télécharger une page web • En analyser le contenu • En extraire des éléments § Les liens vers d’autres pages § Le title, le H1, la description … • Stocker la liste des pages web à traiter • Stocker les résultats ©2018 – Tous droits réservés Databulle – www.databulle.com 3
  • 4. Bots & crawlers ©2018 – Tous droits réservés Databulle – www.databulle.com 4 52% du trafic mondial web mondial provient des bots. Source : Incapsula
  • 5. Screaming Frog Outil SEO de référence Simple et pratique Version gratuite (limitée à 500 URLs) Version payante: £149,00/an ©2018 – Tous droits réservés Databulle – www.databulle.com 5 https://www.screamingfrog.co.uk/seo-spider/
  • 6. Liens cassés Identifier les liens pointant vers des erreurs : pages introuvables, redirections, erreurs serveur, … ©2018 – Tous droits réservés Databulle – www.databulle.com 6
  • 7. Liens cassés ©2018 – Tous droits réservés Databulle – www.databulle.com 7 Répartition par type de code réponse Filtre par type de code réponse Liste des liens pointant vers l’URL sélectionnée
  • 8. D’autres cas d’utilisation Vérifier l’accessibilité des contenus Détecter le contenu dupliqué S’assurer de la bonne réécriture des URLs Vérifier la présence d’un tag sur une liste de pages Comparer le HTML avant/après exécution du JavaScript … ©2018 – Tous droits réservés Databulle – www.databulle.com 8
  • 9. Allez plus loin Prenez de bonnes habitudes • Améliorez vos recettes • Validez vos mises en production • Faites chauffer vos caches Créez vos propres outils • Par exemple avec Scrapy (en Python, désolé) ©2018 – Tous droits réservés Databulle – www.databulle.com 9