Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Le moissonnage de données (data scraping)

Atelier sur le moissonnage de données (ou data scraping) appliqué à la recherche en sciences sociales et en communication donné au LabCMO le 9 février 2019.

  • Be the first to comment

  • Be the first to like this

Le moissonnage de données (data scraping)

  1. 1. 8 février 2019 - Jean-Hugues Roy Moisson de données
  2. 2. 8 février 2019 - Jean-Hugues Roy 1. Exercice avec Google Sheets 2. API WTF 3. Scraping web 4. Selenium 5. Analyse de données 6. Analyse de textes 7. Pour en savoir plus 8. Période de questions Moisson de données
  3. 3. 8 février 2019 - Jean-Hugues Roy Google Sheets Fonctions uniques N’existent pas dans OO,LO,Excel,Numbers =IMPORTHTML
  4. 4. 8 février 2019 - Jean-Hugues Roy L’univers numérique est en fait constitué d’une multitude de bases de données API Interface de programmation Application programming interface Interface pourhumains
  5. 5. 8 février 2019 - Jean-Hugues Roy API Interface de programmation Application programming interface Interface pourordinateurs
  6. 6. 8 février 2019 - Jean-Hugues Roy API Interface de programmation Application programming interface Interface pourordinateurs REST API .json
  7. 7. 8 février 2019 - Jean-Hugues Roy API • Facebook • Twitter • Google - Drive - Maps ($) - Search ($) - Youtube… • Instagram… • WhatsApp • Twitch… • Spotify… • Uber… • AirBnb • CanLII • LCBO • etc…
  8. 8. 8 février 2019 - Jean-Hugues Roy TwitterAPI D’abord, se créer une «app»
  9. 9. 8 février 2019 - Jean-Hugues Roy
  10. 10. 8 février 2019 - Jean-Hugues Roy TwitterAPI D’abord, se créer une «app»
  11. 11. 8 février 2019 - Jean-Hugues Roy Twitter Utiliser plusieurs mots/expressions API D’abord, se créer une «app» Intégrer les permissions dans un script. api-twitter.py Répéter recherches avec «cron» Enr. résultats dans base de données Mais il y a des limites…
  12. 12. 8 février 2019 - Jean-Hugues Roy Twitter Utiliser plusieurs mots/expressions API D’abord, se créer une «app» Intégrer les permissions dans un script. api-twitter.py Répéter recherches avec «cron» Enr. résultats dans base de données Mais il y a des limites…
  13. 13. 8 février 2019 - Jean-Hugues Roy Scraping + Python BeautifulSoup
  14. 14. 8 février 2019 - Jean-Hugues Roy Objectif : Ramasser le texte de toutes les lois du Québec en français et en anglais Scraping Exemple 1 1re étape : Recueillir les URLs des lois lois01.py
  15. 15. 8 février 2019 - Jean-Hugues Roy 2e étape : Télécharger les 1042 lois (521 dans chaque langue) Scraping Exemple 1 Fichiers HTML (pas PDF 💩) lois02.py tutoriel
  16. 16. 8 février 2019 - Jean-Hugues Roy Conseils : Scraping Examinez les URL
  17. 17. 8 février 2019 - Jean-Hugues Roy Conseils : Scraping Examinez les URL
  18. 18. 8 février 2019 - Jean-Hugues Roy Conseils : Dans le code HTML, examinez les balises <meta> Scraping
  19. 19. 8 février 2019 - Jean-Hugues Roy Conseils : Dans le code HTML, examinez le contenu de certains scripts Scraping
  20. 20. 8 février 2019 - Jean-Hugues Roy Scraping
  21. 21. 8 février 2019 - Jean-Hugues Roy Difficultés : Et on fait quoi quand ce qu’on cherche du contenu issu du « deep web »? Scraping
  22. 22. 8 février 2019 - Jean-Hugues Roy Scraping avec Selenium md.py bachir.py
  23. 23. 8 février 2019 - Jean-Hugues Roy Analyse de données chercheuse.eur.s
  24. 24. 8 février 2019 - Jean-Hugues Roy Analyse de données Dans la section Lignes, vous cliquez d’abord sur «Ajouter un champ» et vous sélectionnez la variable selon laquelle vous souhaitez effectuer votre regroupement.
  25. 25. 8 février 2019 - Jean-Hugues Roy Analyse de données wc dans Terminal
  26. 26. 8 février 2019 - Jean-Hugues Roy Analyse de données
  27. 27. 8 février 2019 - Jean-Hugues Roy
  28. 28. 8 février 2019 - Jean-Hugues Roy
  29. 29. 8 février 2019 - Jean-Hugues Roy Analyse de données jupyter notebook
  30. 30. 8 février 2019 - Jean-Hugues Roy Traitement du langage naturel Analyse de textes nltk Trois opérations : • Tokenization • Traitement des mots-vides • Lemmatisation
  31. 31. 8 février 2019 - Jean-Hugues Roy Topic modeling Analyse de textes Visualisation_LDA_p3.html
  32. 32. 8 février 2019 - Jean-Hugues Roy Ça vous tente? anaconda.com
  33. 33. 8 février 2019 - Jean-Hugues Roy Ça vous tente? « Écode l’été » : • Programmation • Analyse de données massives • Apprentissage automatique 2019? Sinon 2020.
  34. 34. 8 février 2019 - Jean-Hugues Roy Merci! bit.ly/ labcmojhroy

×