Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Scraping

1,158 views

Published on

Presentación de como hacer scraping de forma express.

Published in: Technology
  • Login to see the comments

Scraping

  1. 1. Scraping express Scraping express El arte de recuperar datos ´ Seraf´n Velez Barrera ı serafa12000@gmail.com – @seravb 22 de febrero de 2013 ´ Seraf´n Velez Barrera ı Scraping express
  2. 2. Scraping express ´ndice I ı ´ Seraf´n Velez Barrera Scraping express
  3. 3. Scraping express ´ Introduccion ´ ¿Que eso del scraping? ´ El scraping es un tecnica que se usa para recuperar ´ datos de una web o documento basicamente. ı ´ Seraf´n Velez Barrera Scraping express
  4. 4. Scraping express ´ ¿Como se hace? ´ ¿Como se hace? ´ Existen varios metodos, por ejemplo: Para una web ´ Algun framework Scrapy, FastCrawl.. Tablas de PDF Algunas web Tabula ı ´ Seraf´n Velez Barrera Scraping express
  5. 5. Scraping express Scrapy ´ Instalacion de Scrapy Podremos instalar Scrapy de varias maneras: Descarga de la web oficial de Scrapy L´nea de comandos: ı easy install -U Scrapy pip install Scrapy Centro de software ı ´ Seraf´n Velez Barrera Scraping express
  6. 6. Scraping express Scrapy Conociendo a Scrapy Cuando usamos Scrapy tenemos que crear un proyecto, y cada proyecto se compone de: Items Definimos los elementos a extraer. ´ Spiders Es el corazon del proyecto, aqu´ definimos el ı ´ procedimiento de extraccion. ´Pipelines Son los elementos para analizar lo obtenido: validacion de ´ datos, limpieza del codigo html... ı ´ Seraf´n Velez Barrera Scraping express
  7. 7. Scraping express Scrapy Internamente Scrapy ı ´ Seraf´n Velez Barrera Scraping express
  8. 8. Scraping express Scrapy Primeros pasos - Crear un proyecto 1 scrapy startproject OpenDataDayProject ı ´ Seraf´n Velez Barrera Scraping express
  9. 9. Scraping express Scrapy ´ ´ Primeros pasos - Definicion de la informacion 1 from scrapy .item import Item , Field 2 class ODDItem (Item ): 3 title = Field () 4 link = Field () 5 desc = Field () ı ´ Seraf´n Velez Barrera Scraping express
  10. 10. Scraping express Scrapy ´ Primeros pasos - Programacion de los Spiders 1 from scrapy . spider import BaseSpider 2 class ODDSpider ( BaseSpider ): 3 name = "odd" 4 allowed _domains = ["ugr.es"] 5 start_urls = [ 6 "http :// www.ugr.es" 7 ] 8 def parse(self , response ): 9 filename = response .url. split ("/")[ -2] 10 open(filename , ’wb ’). write ( response .body) ı ´ Seraf´n Velez Barrera Scraping express
  11. 11. Scraping express Scrapy Primeros pasos - Ejecutando el proyecto 1 scrapy crawl OpenDataDayProject ı ´ Seraf´n Velez Barrera Scraping express
  12. 12. Scraping express Scrapy Primeros pasos - Salvando lo obtenido 1 scrapy crawl OpenDataDayProject -o info.json -t json ı ´ Seraf´n Velez Barrera Scraping express
  13. 13. Scraping express Conclusiones ´ Conclusion 1 Piensa bien que quieres buscar/hacer (piensa en los ´ aspectos legales tambien). 2 ´ ´ ´ Buscate algun framework para trabajar o programate tu script/programa para extraer datos. 3 Extrae los datos. 4 ´ Procesalos. 5 ´ Almacenalos si te es necesario. ı ´ Seraf´n Velez Barrera Scraping express
  14. 14. Scraping express Conclusiones ı ´ Seraf´n Velez Barrera Scraping express
  15. 15. Scraping express Conclusiones Bibliograf´a ı Web oficial de Scrapy Scrapy en un vistazo Tutorial de Scrapy Ejemplo en Github Tabula ı ´ Seraf´n Velez Barrera Scraping express
  16. 16. Scraping express Conclusiones Licencia Scraping express - El arte de recuperar datos ´ by Seraf´n Velez Barrera is licensed under a ı Creative Commons Reconocimiento- NoComercial-CompartirIgual 3.0 Unported License. ı ´ Seraf´n Velez Barrera Scraping express

×