Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Capturando dados com Python - UAI Python

4,312 views

Published on

Dada a imensa quantidade de informação disponível na Web de forma distribuída e não padronizada, é comum a necessidade de capturar, converter e normalizar esses dados antes de começar o trabalho
desejado em cima deles. Esse processo tira o foco inicial do projeto e pode ser bastante trabalhoso.

Nessa palestra apresentarei ferramentas escritas em Python que envolvem todo o processo descrito acima, visando facilitar e otimizar esse tipo de tarefa.

Slides da palestra ministrada no UAI Python em 29 de agosto de 2015.

Versão interativa dos slides: http://turicas.info/slides/brasil.io/uaipython/

Published in: Technology

Capturando dados com Python - UAI Python

  1. 1. Capturando Dados Com Python Turicas aka Álvaro Justen UAI Python! 29 de agosto de 2015, Belo Horizonte/MG
  2. 2. Turicas, prazer! =) { , , , }/turicas twitter.com github.com youtube.com slideshare.net alvarojusten@gmail.com turicas.info
  3. 3. E Vocês?Python? Crawling/parsing de dados? Análise/visualização de dados?
  4. 4. Valeu, PUG-MG! o/
  5. 5. bit.ly/uaipython- turicas
  6. 6. RoteiroJornalismo de dados Capturade dados LIVE CODING Normalização de dados LIVE CODING Dados abertos, Brasil.IO etc.
  7. 7. Funil de Dados1. Captura: encontrar e baixar 2. Normalização: colocar em um formato amigável 3. Análise: ver o que tem de bom 4. Visualização: mostrar paraos leigos
  8. 8. Funil de Dados [2]4. Visualização: cerejado bolo 3. Análise: onde ocorrem os insights 2. Normalização: pé no saco 1. Captura: pé no saco [2]
  9. 9. Captura + Normalização
  10. 10. WARNING: DANGER ZONE
  11. 11. Captura: APIspip install requests pip install tapioca-facebook
  12. 12. Captura: Nem Tudo São Florespip install splinter pip install scrapy
  13. 13. Normalizaçãopip uninstall beaufitulsoup4 pip uninstall lxml pip install rows
  14. 14. rows 0.1.0 hoje(especialmente pravcs <3) Contribuições são bem-vindas! gihub.com/turicas/rows
  15. 15. Dados AbertosDados Públicos Transparência Empoderamento dados.gov.br
  16. 16. 5 Stars Data 5stardata.info
  17. 17. Linked Data linkeddata.org
  18. 18. Brasil.IO Contribuições são bem-vindas! github.com/turicas/api.brasil.io groups.google.com/group/brasil-io twitter.com/brasil_io facebook.com/api.brasil.io #Brasil.IO@ irc.FreeNode.net
  19. 19. ?
  20. 20. Obrigado! (: Turicas aka Álvaro Justen { , , , }/turicas twitter.com github.com youtube.com slideshare.net alvarojusten@gmail.com turicas.info bit.ly/uaipython-turicas

×