A falta de APIs buenas
son TORTAS
!
XV BetaBeers Zaragoza!
@dani_latorre!
!
11/04/2014
Ego slide
• Fundador de Biera Solutions!
• Desarrollador freelance!
• Ex-socio de Jobsket!
• Open Data (DNDzgz, elDisparat...
Introducción al
Web Scraping
La web
• Compartir y divulgar investigaciones!
• Tim Berners-Lee y Robert Cailliau!
• HTML, HTTP, URL!
• Internet
APIs
Comunicación entre
máquinas
• Web semántica!
• Microformatos!
• SOAP!
• REST!
• ...
Pero no siempre es
posible...
Web Scraping
• “... es una técnica utilizada mediante
programas de software para extraer
información de sitios web.”!
• In...
¿Qué necesitas?
• Entender HTTP y URL!
• Conocer HTML!
• Un navegador web (con buenas
herramientas para devs)
Y más...
• Selectores CSS!
• XPath!
• Manejar sesiones/coockies!
• Expresiones Regulares
PACIENCIA
¿Qué lenguaje uso?
• Python!
• Ruby!
• Java!
• Javascript!
• …!
• “Cualquiera”
¿Librerías?
• Gestión de peticiones (GET Y POST)!
• Parseo del HTML!
• Ambas
Por ejemplo
• Requests, OpenURI/Net::HTTP,
Mechanize, Phantom, HTMLUnit,
Casper, Geb, Nokogiri, BeutifulSoup,
Cheerio, Scr...
Veamos un ejemplo
A falta de APIs buenas son tortas. XV Betabeers Zaragoza
A falta de APIs buenas son tortas. XV Betabeers Zaragoza
A falta de APIs buenas son tortas. XV Betabeers Zaragoza
Upcoming SlideShare
Loading in …5
×

A falta de APIs buenas son tortas. XV Betabeers Zaragoza

1,082 views
927 views

Published on

Una introducción al web scraping

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,082
On SlideShare
0
From Embeds
0
Number of Embeds
15
Actions
Shares
0
Downloads
3
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

A falta de APIs buenas son tortas. XV Betabeers Zaragoza

  1. 1. A falta de APIs buenas son TORTAS ! XV BetaBeers Zaragoza! @dani_latorre! ! 11/04/2014
  2. 2. Ego slide • Fundador de Biera Solutions! • Desarrollador freelance! • Ex-socio de Jobsket! • Open Data (DNDzgz, elDisparate.de...)
  3. 3. Introducción al Web Scraping
  4. 4. La web • Compartir y divulgar investigaciones! • Tim Berners-Lee y Robert Cailliau! • HTML, HTTP, URL! • Internet
  5. 5. APIs
  6. 6. Comunicación entre máquinas • Web semántica! • Microformatos! • SOAP! • REST! • ...
  7. 7. Pero no siempre es posible...
  8. 8. Web Scraping • “... es una técnica utilizada mediante programas de software para extraer información de sitios web.”! • Ingeniería inversa! • Controvertido
  9. 9. ¿Qué necesitas? • Entender HTTP y URL! • Conocer HTML! • Un navegador web (con buenas herramientas para devs)
  10. 10. Y más... • Selectores CSS! • XPath! • Manejar sesiones/coockies! • Expresiones Regulares
  11. 11. PACIENCIA
  12. 12. ¿Qué lenguaje uso? • Python! • Ruby! • Java! • Javascript! • …! • “Cualquiera”
  13. 13. ¿Librerías? • Gestión de peticiones (GET Y POST)! • Parseo del HTML! • Ambas
  14. 14. Por ejemplo • Requests, OpenURI/Net::HTTP, Mechanize, Phantom, HTMLUnit, Casper, Geb, Nokogiri, BeutifulSoup, Cheerio, Scrapy, Selenium…
  15. 15. Veamos un ejemplo

×