Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Desenvolvendo web crawler/scraper com Python

Fala um pouco de algumas bibliotecas em Python para o desenvolvimento de um web crawler ou scraper.
------
Cover some Python libraries for development of web crawler or scraper.

  • Login to see the comments

Desenvolvendo web crawler/scraper com Python

  1. 1. Desenvolvendo web crawler/scraper com Python G e e k N i g h t
  2. 2. 2
  3. 3. 3 Web Crawler ● Spider, robôs ● Começa com uma lista de URL's para visitar. A cada URL visitada, ele identifica os hyperlinks e os guarda para visitá-los no futuro, e também copia o conteúdo da página. ● GoogleBot, Yahoo Slurp,DuckDuckBot...
  4. 4. 4 Web Scraper ● Extrai informações de um web site. ● Relacionado com web indexing. ● Transformação de dados.
  5. 5. 5 Trabalho de um crawler/scraper ● Abrir um link ● Cópia e/ou manipulação do dado
  6. 6. 6 Seletores ● Xpath ● CSS Selectors Retirado do site http://ejohn.org/blog/xpath-css-selectors/
  7. 7. 7 import request ● Para humanos ● urllib2
  8. 8. 8 lxml ● Uma implementação em Python das bibliotecas em C libxml2 e libxslt para parse de xml e html. ●Suporta css selector e xpath.
  9. 9. 9 lxml
  10. 10. 10 BeautifulSoup
  11. 11. 11 PySpider
  12. 12. 12 Scrapy ● Open Source framework, poderoso para crawling e scraping. Python 2. ● Suporta o uso de xpath e css selectors. ● Formatos de saída: json, csv, xml, json lines ● Há exemplos com persistência em banco.
  13. 13. 13 Scrapy scrapy crawl bbcnews --output results.json Retirado do site http://scraping.pro/
  14. 14. 14 Bibliotecas em Python ● Goose ● Pyquery
  15. 15. Obrigada! Roselma Mendes rmendes@thoughtworks.com github.com/roselmamendes

×