A falta de APIs buenas son tortas. XV Betabeers Zaragoza

  • 547 views
Uploaded on

Una introducción al web scraping

Una introducción al web scraping

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
547
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
2
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. A falta de APIs buenas son TORTAS ! XV BetaBeers Zaragoza! @dani_latorre! ! 11/04/2014
  • 2. Ego slide • Fundador de Biera Solutions! • Desarrollador freelance! • Ex-socio de Jobsket! • Open Data (DNDzgz, elDisparate.de...)
  • 3. Introducción al Web Scraping
  • 4. La web • Compartir y divulgar investigaciones! • Tim Berners-Lee y Robert Cailliau! • HTML, HTTP, URL! • Internet
  • 5. APIs
  • 6. Comunicación entre máquinas • Web semántica! • Microformatos! • SOAP! • REST! • ...
  • 7. Pero no siempre es posible...
  • 8. Web Scraping • “... es una técnica utilizada mediante programas de software para extraer información de sitios web.”! • Ingeniería inversa! • Controvertido
  • 9. ¿Qué necesitas? • Entender HTTP y URL! • Conocer HTML! • Un navegador web (con buenas herramientas para devs)
  • 10. Y más... • Selectores CSS! • XPath! • Manejar sesiones/coockies! • Expresiones Regulares
  • 11. PACIENCIA
  • 12. ¿Qué lenguaje uso? • Python! • Ruby! • Java! • Javascript! • …! • “Cualquiera”
  • 13. ¿Librerías? • Gestión de peticiones (GET Y POST)! • Parseo del HTML! • Ambas
  • 14. Por ejemplo • Requests, OpenURI/Net::HTTP, Mechanize, Phantom, HTMLUnit, Casper, Geb, Nokogiri, BeutifulSoup, Cheerio, Scrapy, Selenium…
  • 15. Veamos un ejemplo