SlideShare a Scribd company logo
1 of 39
Download to read offline
Web scraping
Virginie Lethier
virginie.lethier@univ-fcomte.fr
 Acquérir des données textuelles pour une recherche, un
mémoire, pour organiser un projet (adresses mail, numéros
de téléphone, liste d’articles) et/ou une veille
informationnelle, pour archiver…
 Aucune compétence en programmation requise
Pourquoi cette formation? Pour qui?
Web scraper
 Utiliser des « robots » pour « aspirer » des sites web
Un web scraper est un programme informatique qui lit le
code html des pages web pour extraire des données qui
sont présentées sur des sites web.
Web scraper ? Harvesting ?
Web scraper
 Scraper n’est pas une activité illégale en soi
 Mais une utilisation des données webscrapées peut aller contre l’éthique
ou être véritablement illégale...
Rappel : toujours lire et respecter les conditions générales d’utilisation (CGU) et les
conditions générales de vente (CGV) avant de web scrapper .
Rappel des bonnes pratiques et des problématiques liées aux données de
la recherche dans un contexte d’open data :
http://www.oecd.org/fr/sti/inno/38500823.pdf
http://www.donneesdelarecherche.fr/
Web scraper, c’est hacker ?
Web scraper
Image : UnderNews Actu
 Parmi lesquels : Import.io, Scrapy, Outwit Hub, Gromoteur
 Webscraper est une extension disponible sous Google
Chrome qui permet d’extraire les données d’un site internet
très rapidement.
De nombreux outils disponibles
Web scrapper
(1) Je télécharge sur mon ordinateur
l’extension de Google Chrome :
http://webscraper.io/
Web scrapper
(2) Je vais sur le site dont je souhaite
aspirer le contenu
Web scrapper
Web scrapper
(3) J’analyse la présentation du site
Web scrapper
J’observe la
variation de
l’adresse liée à
la rubrique
« Société »
J’observe le
nombre de
pages…
Web scrapper
J’analyse
l’adresse de la
page 5 de la
rubrique
« Société »
Web scrapper
Chaque PAGE contient
PLUSIEURS LIENS vers
des articles. Le lien
correspond au titre de
l’article.
La mise en forme de
chaque lien apparaît
rigoureusement
identique.
Web scrapper
(4) J’ouvre Web Scraper
Web scrapper
(a) Je clic sur les points verticaux
(b) Je clic sur « plus d’outils »
(c) Je clic sur « Outils de développement »
Web scrapper
Une « fenêtre » s’ouvre en bas de votre écran
Je clic sur Web Scraper
Web scrapper
Sous l’onglet « SITEMAPS », seront rangés mes « programmes » spécifiques à un site
Sous l’onglet « Sitemap » se trouvent mes commandes pour un programme ouvert
(5) Je clique ici pour
créer un nouveau
programme
Web scrapper
5 (a) Je clic sur « create Sitemap»
5 (b) Je nomme mon programme
5 (c) Je copie l’URL du site
5 (d) Je valide pour créer le programme
Web scrapper
Exemple : je veux aspirer les titres des articles de la rubrique
« Société » du site. Cette rubrique s’étend sur 2083 pages.
Mon programme tournera les pages de 1 à 2083 et appliquera
systématiquement mes commandes sur chaque page
Web scrapper
(6) Je clic sur « add selectors »
Web scrapper
(a) Je nomme l’objet à sélectionner
(b) Je choisis dans le menu déroulant le type de l’obje
(c) Je coche « multiple » si mon objet est présent plusieurs fo
sur une page.
Exemple : sélectionner les liens des articles
Web scrapper
.
Web scrapper
(d) Je clique sur
SELECT puis je
clique sur les TITRES
du site.
Enfin, je coche et
je valide
puis je clique sur les
TITRES du site.
Web scrapper
(7) Je valide en cliquant sur « Save
selector »
Je peux pré-visualiser le résultat en cliquant sur
« Data Preview »
Web scrapper
(8) Je peux maintenant lancer mon
programme en cliquant sur
SCRAPE
Web scrapper
(8) Je confirme en cliquant sur
« start »
Si besoin, augmenter la durée de
l’intervalle (1ère ligne)
Web scrapper
Le fichier .csv est prêt !
Télécharger le fichier en
cliquant sur « export data »
Web scrapper
Vue sur le fichier texte après sélection de la colonne titre
Web scrapper
Nouvel exemple : je souhaite
télécharger tous les articles de la
rubrique « société » du site
FDSOUCHE
Web scrapper
(1) J’analyse le site…
Web scrapper
(1) J’analyse l’article
Il s’agit de TEXTE
Plusieurs paragraphes par page
Plusieurs niveaux de mise en
forme…
Web scrapper
2) Je réitère la procédure de l’exemple
précédent jusqu’à l’étape 7
3) Je clique sur titre
Web scrapper
Ma requête doit dépendre de celle
formulée sur le niveau TITRE…
(4) Je clique sur « Add new selector »
Web scrapper
(5) Je remplis le formulaire
A –Je nomme mon objet
B –Je sélectionne sa nature dans le menu déroulant
C –Je sélectionne sa nature dans le menu déroulant
Web scrapper
(6) Je sélectionne le texte
Je coche la
validité de la
structuration et
je clique sur
« Done
selecting »
Web scrapper
Je prévisualise le résultat
Web scrapper
Ici, je choisis TITRE puis je confirme en cliquant
sur « Save Selector »
(7) Je choisis le sélecteur dont
dépend ma requête
Web scrapper
(8) Je lance le scrap
(8) Je peux maintenant lancer mon
programme en cliquant sur
SCRAPE
Web scrapper
C’est prêt !
Web scrapper
Web scrapper
Pour aller plus loin et vous approprier l’outil…
• https://www.webscraper.io/documentation
• https://www.webscraper.io/tutorials
Pour un exemple sur une
récupération d’adresses (tuto
en langue anglaise) :
https://www.youtube.com/wat
ch?v=ZdOrH50WqEo

More Related Content

Similar to trucs_PFT_WEB_SCRAP_190411.pdf

La boîte à outils de marketinghack et les 4 logiciels SEO que je prefère
La boîte à outils de marketinghack et les 4 logiciels SEO que je prefèreLa boîte à outils de marketinghack et les 4 logiciels SEO que je prefère
La boîte à outils de marketinghack et les 4 logiciels SEO que je prefèreludovic barthélémy
 
Atelier Web et Mobile Design partie I, introduction au web design, Outils du ...
Atelier Web et Mobile Design partie I, introduction au web design, Outils du ...Atelier Web et Mobile Design partie I, introduction au web design, Outils du ...
Atelier Web et Mobile Design partie I, introduction au web design, Outils du ...Ahmed BACHIR CHERIF
 
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017Peak Ace
 
Comment CréEr Votre Propre Site Internet
Comment CréEr Votre Propre Site InternetComment CréEr Votre Propre Site Internet
Comment CréEr Votre Propre Site Internetrockpunk55
 
Introduction aux web components
Introduction aux web componentsIntroduction aux web components
Introduction aux web componentsFrancois ANDRE
 
Une visite guidée d’Internet Explorer 9 et HTML5 pour les développeurs Web
Une visite guidée d’Internet Explorer 9 et HTML5 pour les développeurs WebUne visite guidée d’Internet Explorer 9 et HTML5 pour les développeurs Web
Une visite guidée d’Internet Explorer 9 et HTML5 pour les développeurs WebFrédéric Harper
 
Introduction à la performance web
Introduction à la performance webIntroduction à la performance web
Introduction à la performance webRaphaël Goetter
 
Convention Medialibs : Raphaël Goetter (Introduction à la performance web)
Convention Medialibs : Raphaël Goetter (Introduction  à la performance web)Convention Medialibs : Raphaël Goetter (Introduction  à la performance web)
Convention Medialibs : Raphaël Goetter (Introduction à la performance web)Medialibs
 
Fascicule de tp atelier développement web
Fascicule de tp atelier développement webFascicule de tp atelier développement web
Fascicule de tp atelier développement webHouda TOUKABRI
 
Asp.net Tutorials de L'application "Organizer"
Asp.net Tutorials de L'application "Organizer"Asp.net Tutorials de L'application "Organizer"
Asp.net Tutorials de L'application "Organizer"Nazih Heni
 
Morning tech #2 - Démarche performance slides
Morning tech #2 - Démarche performance slidesMorning tech #2 - Démarche performance slides
Morning tech #2 - Démarche performance slidesOxalide
 
Oxalide Morning tech #2 - démarche performance
Oxalide Morning tech #2 - démarche performanceOxalide Morning tech #2 - démarche performance
Oxalide Morning tech #2 - démarche performanceLudovic Piot
 
Rapport de mon First Projet Web à l'Ecole Supérieure de Technologie de SAFI -...
Rapport de mon First Projet Web à l'Ecole Supérieure de Technologie de SAFI -...Rapport de mon First Projet Web à l'Ecole Supérieure de Technologie de SAFI -...
Rapport de mon First Projet Web à l'Ecole Supérieure de Technologie de SAFI -...Mohammed JAITI
 
Création de blog et sites internet
Création de blog et sites internetCréation de blog et sites internet
Création de blog et sites internetpiera5
 
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...SEARCH Y - Philippe Yonnet Evénements
 
Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Philippe YONNET
 
Cours referencement optimisation
Cours referencement optimisationCours referencement optimisation
Cours referencement optimisationRémi Bachelet
 

Similar to trucs_PFT_WEB_SCRAP_190411.pdf (20)

La boîte à outils de marketinghack et les 4 logiciels SEO que je prefère
La boîte à outils de marketinghack et les 4 logiciels SEO que je prefèreLa boîte à outils de marketinghack et les 4 logiciels SEO que je prefère
La boîte à outils de marketinghack et les 4 logiciels SEO que je prefère
 
Atelier Web et Mobile Design partie I, introduction au web design, Outils du ...
Atelier Web et Mobile Design partie I, introduction au web design, Outils du ...Atelier Web et Mobile Design partie I, introduction au web design, Outils du ...
Atelier Web et Mobile Design partie I, introduction au web design, Outils du ...
 
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
Les bonnes pratiques SEO avec les frameworks javascript - SEO CAMPUS 9 mars 2017
 
Comment CréEr Votre Propre Site Internet
Comment CréEr Votre Propre Site InternetComment CréEr Votre Propre Site Internet
Comment CréEr Votre Propre Site Internet
 
Introduction aux web components
Introduction aux web componentsIntroduction aux web components
Introduction aux web components
 
Bootstrap 4
Bootstrap 4Bootstrap 4
Bootstrap 4
 
Une visite guidée d’Internet Explorer 9 et HTML5 pour les développeurs Web
Une visite guidée d’Internet Explorer 9 et HTML5 pour les développeurs WebUne visite guidée d’Internet Explorer 9 et HTML5 pour les développeurs Web
Une visite guidée d’Internet Explorer 9 et HTML5 pour les développeurs Web
 
Introduction aspnet
Introduction aspnetIntroduction aspnet
Introduction aspnet
 
Bootstrap
BootstrapBootstrap
Bootstrap
 
Introduction à la performance web
Introduction à la performance webIntroduction à la performance web
Introduction à la performance web
 
Convention Medialibs : Raphaël Goetter (Introduction à la performance web)
Convention Medialibs : Raphaël Goetter (Introduction  à la performance web)Convention Medialibs : Raphaël Goetter (Introduction  à la performance web)
Convention Medialibs : Raphaël Goetter (Introduction à la performance web)
 
Fascicule de tp atelier développement web
Fascicule de tp atelier développement webFascicule de tp atelier développement web
Fascicule de tp atelier développement web
 
Asp.net Tutorials de L'application "Organizer"
Asp.net Tutorials de L'application "Organizer"Asp.net Tutorials de L'application "Organizer"
Asp.net Tutorials de L'application "Organizer"
 
Morning tech #2 - Démarche performance slides
Morning tech #2 - Démarche performance slidesMorning tech #2 - Démarche performance slides
Morning tech #2 - Démarche performance slides
 
Oxalide Morning tech #2 - démarche performance
Oxalide Morning tech #2 - démarche performanceOxalide Morning tech #2 - démarche performance
Oxalide Morning tech #2 - démarche performance
 
Rapport de mon First Projet Web à l'Ecole Supérieure de Technologie de SAFI -...
Rapport de mon First Projet Web à l'Ecole Supérieure de Technologie de SAFI -...Rapport de mon First Projet Web à l'Ecole Supérieure de Technologie de SAFI -...
Rapport de mon First Projet Web à l'Ecole Supérieure de Technologie de SAFI -...
 
Création de blog et sites internet
Création de blog et sites internetCréation de blog et sites internet
Création de blog et sites internet
 
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...
SEARCH Y - Bing : Frédéric Dubut et Fabrice Canel - Crawl et Indexation, les ...
 
Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015Utilisation avancée d'un crawler - SEO Camp'us 2015
Utilisation avancée d'un crawler - SEO Camp'us 2015
 
Cours referencement optimisation
Cours referencement optimisationCours referencement optimisation
Cours referencement optimisation
 

trucs_PFT_WEB_SCRAP_190411.pdf

  • 2.  Acquérir des données textuelles pour une recherche, un mémoire, pour organiser un projet (adresses mail, numéros de téléphone, liste d’articles) et/ou une veille informationnelle, pour archiver…  Aucune compétence en programmation requise Pourquoi cette formation? Pour qui? Web scraper
  • 3.  Utiliser des « robots » pour « aspirer » des sites web Un web scraper est un programme informatique qui lit le code html des pages web pour extraire des données qui sont présentées sur des sites web. Web scraper ? Harvesting ? Web scraper
  • 4.  Scraper n’est pas une activité illégale en soi  Mais une utilisation des données webscrapées peut aller contre l’éthique ou être véritablement illégale... Rappel : toujours lire et respecter les conditions générales d’utilisation (CGU) et les conditions générales de vente (CGV) avant de web scrapper . Rappel des bonnes pratiques et des problématiques liées aux données de la recherche dans un contexte d’open data : http://www.oecd.org/fr/sti/inno/38500823.pdf http://www.donneesdelarecherche.fr/ Web scraper, c’est hacker ? Web scraper Image : UnderNews Actu
  • 5.  Parmi lesquels : Import.io, Scrapy, Outwit Hub, Gromoteur  Webscraper est une extension disponible sous Google Chrome qui permet d’extraire les données d’un site internet très rapidement. De nombreux outils disponibles Web scrapper
  • 6. (1) Je télécharge sur mon ordinateur l’extension de Google Chrome : http://webscraper.io/ Web scrapper
  • 7. (2) Je vais sur le site dont je souhaite aspirer le contenu Web scrapper
  • 9. (3) J’analyse la présentation du site Web scrapper J’observe la variation de l’adresse liée à la rubrique « Société » J’observe le nombre de pages…
  • 10. Web scrapper J’analyse l’adresse de la page 5 de la rubrique « Société »
  • 11. Web scrapper Chaque PAGE contient PLUSIEURS LIENS vers des articles. Le lien correspond au titre de l’article. La mise en forme de chaque lien apparaît rigoureusement identique.
  • 13. Web scrapper (a) Je clic sur les points verticaux (b) Je clic sur « plus d’outils » (c) Je clic sur « Outils de développement »
  • 14. Web scrapper Une « fenêtre » s’ouvre en bas de votre écran Je clic sur Web Scraper
  • 15. Web scrapper Sous l’onglet « SITEMAPS », seront rangés mes « programmes » spécifiques à un site Sous l’onglet « Sitemap » se trouvent mes commandes pour un programme ouvert (5) Je clique ici pour créer un nouveau programme
  • 16. Web scrapper 5 (a) Je clic sur « create Sitemap» 5 (b) Je nomme mon programme 5 (c) Je copie l’URL du site 5 (d) Je valide pour créer le programme
  • 17. Web scrapper Exemple : je veux aspirer les titres des articles de la rubrique « Société » du site. Cette rubrique s’étend sur 2083 pages. Mon programme tournera les pages de 1 à 2083 et appliquera systématiquement mes commandes sur chaque page
  • 18. Web scrapper (6) Je clic sur « add selectors »
  • 19. Web scrapper (a) Je nomme l’objet à sélectionner (b) Je choisis dans le menu déroulant le type de l’obje (c) Je coche « multiple » si mon objet est présent plusieurs fo sur une page.
  • 20. Exemple : sélectionner les liens des articles Web scrapper .
  • 21. Web scrapper (d) Je clique sur SELECT puis je clique sur les TITRES du site. Enfin, je coche et je valide puis je clique sur les TITRES du site.
  • 22. Web scrapper (7) Je valide en cliquant sur « Save selector » Je peux pré-visualiser le résultat en cliquant sur « Data Preview »
  • 23. Web scrapper (8) Je peux maintenant lancer mon programme en cliquant sur SCRAPE
  • 24. Web scrapper (8) Je confirme en cliquant sur « start » Si besoin, augmenter la durée de l’intervalle (1ère ligne)
  • 25. Web scrapper Le fichier .csv est prêt ! Télécharger le fichier en cliquant sur « export data »
  • 26. Web scrapper Vue sur le fichier texte après sélection de la colonne titre
  • 27. Web scrapper Nouvel exemple : je souhaite télécharger tous les articles de la rubrique « société » du site FDSOUCHE
  • 29. Web scrapper (1) J’analyse l’article Il s’agit de TEXTE Plusieurs paragraphes par page Plusieurs niveaux de mise en forme…
  • 30. Web scrapper 2) Je réitère la procédure de l’exemple précédent jusqu’à l’étape 7 3) Je clique sur titre
  • 31. Web scrapper Ma requête doit dépendre de celle formulée sur le niveau TITRE… (4) Je clique sur « Add new selector »
  • 32. Web scrapper (5) Je remplis le formulaire A –Je nomme mon objet B –Je sélectionne sa nature dans le menu déroulant C –Je sélectionne sa nature dans le menu déroulant
  • 33. Web scrapper (6) Je sélectionne le texte Je coche la validité de la structuration et je clique sur « Done selecting »
  • 35. Web scrapper Ici, je choisis TITRE puis je confirme en cliquant sur « Save Selector » (7) Je choisis le sélecteur dont dépend ma requête
  • 36. Web scrapper (8) Je lance le scrap (8) Je peux maintenant lancer mon programme en cliquant sur SCRAPE
  • 39. Web scrapper Pour aller plus loin et vous approprier l’outil… • https://www.webscraper.io/documentation • https://www.webscraper.io/tutorials Pour un exemple sur une récupération d’adresses (tuto en langue anglaise) : https://www.youtube.com/wat ch?v=ZdOrH50WqEo