Scraping

554 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
554
On SlideShare
0
From Embeds
0
Number of Embeds
60
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Scraping

  1. 1. C U R S O D E A C T U A L I Z A C I Ó N P R O F E S I O N A L E N P E R I O D I S M O D E D A T O S S I N D I C A T O D E P R E N S A D E R O S A R I O Introducción al scraping de datos
  2. 2. ¿Qué es scraping?  Literalmente, “to scrape” quiere decir “rascar”, “arañar”.  Es el método que nos permite extraer datos escondidos en un documento y obtenerlos en un formato que nos resulte adecuado para utilizar después.
  3. 3. ¿Cuándo necesitamos hacer scraping?  Cuando hacemos una búsqueda de datos, muchas veces nos encontramos con información que está en formatos distintos.  Las técnicas de scraping nos permiten unificar formatos de datos para combinarlos y analizarlos luego.
  4. 4. Web scraping  Se denomina de ese modo a las técnicas utilizadas para obtener datos de sitios web.  Podemos hacerlo mediante el uso de comandos, extensiones y software específico.
  5. 5. Extraer datos de documentos PDF  Zamzar.com
  6. 6. Usando zamzar.com  Cargar PDF y convertir a: .xlsx
  7. 7. Usando zamzar.com  Agregar correo para recibir el archivo. Botón “Convert”
  8. 8. Usando zamzar.com  Buscar el enlace de descarga en el correo, luego hacer click en “Download now”
  9. 9. Usando zamzar.com  Archivo en formatos PDF y .xlsx
  10. 10. Scraping de imágenes  Cuando los datos están en imágenes (JPG, BMP, GIF), podemos usar software de reconocimiento óptico (OCR)
  11. 11. Usando free-ocr.com  Seleccionar idioma, resolver código CAPTCHA y enviar archivo.
  12. 12. Usando free-ocr.com  Seleccionar idioma, resolver código CAPTCHA y enviar archivo.
  13. 13. Usando free-ocr.com  En la próxima pantalla se mostrarán los resultados para copiar y pegar.

×