SlideShare una empresa de Scribd logo
1 de 13
C U R S O D E A C T U A L I Z A C I Ó N P R O F E S I O N A L
E N P E R I O D I S M O D E D A T O S
S I N D I C A T O D E P R E N S A D E R O S A R I O
Introducción al
scraping de datos
¿Qué es scraping?
 Literalmente, “to scrape” quiere decir “rascar”,
“arañar”.
 Es el método que nos permite extraer datos
escondidos en un documento y obtenerlos en un
formato que nos resulte adecuado para utilizar
después.
¿Cuándo necesitamos hacer scraping?
 Cuando hacemos una búsqueda de datos, muchas
veces nos encontramos con información que está en
formatos distintos.
 Las técnicas de scraping nos permiten unificar
formatos de datos para combinarlos y analizarlos
luego.
Web scraping
 Se denomina de ese modo a las técnicas utilizadas
para obtener datos de sitios web.
 Podemos hacerlo mediante el uso de comandos,
extensiones y software específico.
Extraer datos de documentos PDF
 Zamzar.com
Usando zamzar.com
 Cargar PDF y convertir a: .xlsx
Usando zamzar.com
 Agregar correo para recibir el archivo. Botón
“Convert”
Usando zamzar.com
 Buscar el enlace de descarga en el correo, luego hacer
click en “Download now”
Usando zamzar.com
 Archivo en formatos PDF y .xlsx
Scraping de imágenes
 Cuando los datos están en imágenes (JPG, BMP,
GIF), podemos usar software de reconocimiento
óptico (OCR)
Usando free-ocr.com
 Seleccionar idioma, resolver código CAPTCHA y
enviar archivo.
Usando free-ocr.com
 Seleccionar idioma, resolver código CAPTCHA y
enviar archivo.
Usando free-ocr.com
 En la próxima pantalla se mostrarán los resultados
para copiar y pegar.

Más contenido relacionado

Destacado

Bxl 05 02 Bxl Les Murs Cc
Bxl  05 02 Bxl Les Murs CcBxl  05 02 Bxl Les Murs Cc
Bxl 05 02 Bxl Les Murs Ccpilarandres
 
De New York à Roubaix, quelles sont les grandes tendances de demain?
De New York à Roubaix, quelles sont les grandes tendances de demain?De New York à Roubaix, quelles sont les grandes tendances de demain?
De New York à Roubaix, quelles sont les grandes tendances de demain?Effiliation
 
Guide pratique du e_reputation_juin 2011
Guide pratique du  e_reputation_juin 2011Guide pratique du  e_reputation_juin 2011
Guide pratique du e_reputation_juin 2011AkimELSIKAMEYA
 
Usb Ruben Tapia Soporte Computacional
Usb Ruben Tapia Soporte ComputacionalUsb Ruben Tapia Soporte Computacional
Usb Ruben Tapia Soporte Computacionallansd
 
Référencement - Aquinum Bordeaux - Juillet 2012
Référencement - Aquinum Bordeaux - Juillet 2012Référencement - Aquinum Bordeaux - Juillet 2012
Référencement - Aquinum Bordeaux - Juillet 2012Yannick Gaultier
 
Luria
LuriaLuria
LuriaCJMSC
 
CDC_OffredeformationCompétencesNumPro_sept2013
CDC_OffredeformationCompétencesNumPro_sept2013CDC_OffredeformationCompétencesNumPro_sept2013
CDC_OffredeformationCompétencesNumPro_sept2013FormaVia
 
Alcance y secuencia: CCNA Exploration v4.0
Alcance y secuencia: CCNA Exploration v4.0Alcance y secuencia: CCNA Exploration v4.0
Alcance y secuencia: CCNA Exploration v4.0charlyrf30
 
Print advertising: questions and examples
Print advertising: questions and examplesPrint advertising: questions and examples
Print advertising: questions and examplesjacksoc19
 
Villes et communes: le pack de démarrage FACEBOOK
Villes et communes: le pack de démarrage FACEBOOKVilles et communes: le pack de démarrage FACEBOOK
Villes et communes: le pack de démarrage FACEBOOKREALIZ
 

Destacado (18)

Empowerment numérique
Empowerment numériqueEmpowerment numérique
Empowerment numérique
 
Bxl 05 02 Bxl Les Murs Cc
Bxl  05 02 Bxl Les Murs CcBxl  05 02 Bxl Les Murs Cc
Bxl 05 02 Bxl Les Murs Cc
 
De New York à Roubaix, quelles sont les grandes tendances de demain?
De New York à Roubaix, quelles sont les grandes tendances de demain?De New York à Roubaix, quelles sont les grandes tendances de demain?
De New York à Roubaix, quelles sont les grandes tendances de demain?
 
5º basico b
5º basico b5º basico b
5º basico b
 
4º basico a 06 de noviembre
4º basico a  06 de noviembre4º basico a  06 de noviembre
4º basico a 06 de noviembre
 
Guide pratique du e_reputation_juin 2011
Guide pratique du  e_reputation_juin 2011Guide pratique du  e_reputation_juin 2011
Guide pratique du e_reputation_juin 2011
 
Usb Ruben Tapia Soporte Computacional
Usb Ruben Tapia Soporte ComputacionalUsb Ruben Tapia Soporte Computacional
Usb Ruben Tapia Soporte Computacional
 
Référencement - Aquinum Bordeaux - Juillet 2012
Référencement - Aquinum Bordeaux - Juillet 2012Référencement - Aquinum Bordeaux - Juillet 2012
Référencement - Aquinum Bordeaux - Juillet 2012
 
I[1].i1863
I[1].i1863I[1].i1863
I[1].i1863
 
Devoir #2
Devoir #2Devoir #2
Devoir #2
 
Luria
LuriaLuria
Luria
 
4º basico a 14 de agosto
4º basico a  14 de agosto4º basico a  14 de agosto
4º basico a 14 de agosto
 
2º basico a 13 de noviembre
2º basico a  13 de noviembre2º basico a  13 de noviembre
2º basico a 13 de noviembre
 
CDC_OffredeformationCompétencesNumPro_sept2013
CDC_OffredeformationCompétencesNumPro_sept2013CDC_OffredeformationCompétencesNumPro_sept2013
CDC_OffredeformationCompétencesNumPro_sept2013
 
Alcance y secuencia: CCNA Exploration v4.0
Alcance y secuencia: CCNA Exploration v4.0Alcance y secuencia: CCNA Exploration v4.0
Alcance y secuencia: CCNA Exploration v4.0
 
Print advertising: questions and examples
Print advertising: questions and examplesPrint advertising: questions and examples
Print advertising: questions and examples
 
Démarche experimentale
Démarche experimentaleDémarche experimentale
Démarche experimentale
 
Villes et communes: le pack de démarrage FACEBOOK
Villes et communes: le pack de démarrage FACEBOOKVilles et communes: le pack de démarrage FACEBOOK
Villes et communes: le pack de démarrage FACEBOOK
 

Similar a Scraping

WEB SCRAPING & API REST
 WEB SCRAPING & API REST WEB SCRAPING & API REST
WEB SCRAPING & API RESTCharly Graf Q
 
Busqueda avanzada y descarga de archivos
Busqueda avanzada y descarga de archivosBusqueda avanzada y descarga de archivos
Busqueda avanzada y descarga de archivosSofía2 Escobedo
 
Tecnoadvance
TecnoadvanceTecnoadvance
Tecnoadvancecaosorio3
 
Taller de Scrapy - Barcelona Activa
Taller de Scrapy - Barcelona ActivaTaller de Scrapy - Barcelona Activa
Taller de Scrapy - Barcelona ActivaDaniel Bertinat
 
Spark Streaming introduccion desarrollo conclusion
Spark Streaming introduccion desarrollo conclusionSpark Streaming introduccion desarrollo conclusion
Spark Streaming introduccion desarrollo conclusionciriloallccagaray5
 
Actividad integradora 2
Actividad integradora 2Actividad integradora 2
Actividad integradora 2locolucas8
 
LAS TIC`S EN LA ACTUALDAD
LAS TIC`S EN LA ACTUALDADLAS TIC`S EN LA ACTUALDAD
LAS TIC`S EN LA ACTUALDADsena2015grupo2
 
Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
Cassandra Meet Up Noviembre - Drag & Drop Techs With CassandraCassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
Cassandra Meet Up Noviembre - Drag & Drop Techs With CassandraFrancisco Javier Pulido Piñero
 
Trabajo de informatica 2013
Trabajo de informatica 2013Trabajo de informatica 2013
Trabajo de informatica 2013luifergonzalez
 

Similar a Scraping (20)

Hackon URJC
Hackon URJCHackon URJC
Hackon URJC
 
WEB SCRAPING & API REST
 WEB SCRAPING & API REST WEB SCRAPING & API REST
WEB SCRAPING & API REST
 
Temas de informáticajc
Temas de informáticajcTemas de informáticajc
Temas de informáticajc
 
Busqueda avanzada y descarga de archivos
Busqueda avanzada y descarga de archivosBusqueda avanzada y descarga de archivos
Busqueda avanzada y descarga de archivos
 
presentacion
presentacionpresentacion
presentacion
 
Spark meetup barcelona
Spark meetup barcelonaSpark meetup barcelona
Spark meetup barcelona
 
Recomendaciones de seguridad informática
Recomendaciones de seguridad informáticaRecomendaciones de seguridad informática
Recomendaciones de seguridad informática
 
Tecnoadvance
TecnoadvanceTecnoadvance
Tecnoadvance
 
Taller de Scrapy - Barcelona Activa
Taller de Scrapy - Barcelona ActivaTaller de Scrapy - Barcelona Activa
Taller de Scrapy - Barcelona Activa
 
Spark Streaming introduccion desarrollo conclusion
Spark Streaming introduccion desarrollo conclusionSpark Streaming introduccion desarrollo conclusion
Spark Streaming introduccion desarrollo conclusion
 
Actividad integradora 2
Actividad integradora 2Actividad integradora 2
Actividad integradora 2
 
Cuestionario investigación
Cuestionario investigación Cuestionario investigación
Cuestionario investigación
 
LAS TIC`S EN LA ACTUALDAD
LAS TIC`S EN LA ACTUALDADLAS TIC`S EN LA ACTUALDAD
LAS TIC`S EN LA ACTUALDAD
 
La biblia del_footprinting
La biblia del_footprintingLa biblia del_footprinting
La biblia del_footprinting
 
Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
Cassandra Meet Up Noviembre - Drag & Drop Techs With CassandraCassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
Cassandra Meet Up Noviembre - Drag & Drop Techs With Cassandra
 
FULLSTACK JS DEV in 2017
FULLSTACK JS DEV in 2017FULLSTACK JS DEV in 2017
FULLSTACK JS DEV in 2017
 
Trabajo de informatica 2013
Trabajo de informatica 2013Trabajo de informatica 2013
Trabajo de informatica 2013
 
Plantilla PPT DRC.pptx
Plantilla PPT DRC.pptxPlantilla PPT DRC.pptx
Plantilla PPT DRC.pptx
 
¿Quién, cuándo, dónde y por qué?
¿Quién, cuándo, dónde y por qué?¿Quién, cuándo, dónde y por qué?
¿Quién, cuándo, dónde y por qué?
 
Scraping o cómo escarbar datos
Scraping o cómo escarbar datosScraping o cómo escarbar datos
Scraping o cómo escarbar datos
 

Más de AnahiLovato

Unidad 2 | Periodismo de datos y visualización de la información
Unidad 2 | Periodismo de datos y visualización de la informaciónUnidad 2 | Periodismo de datos y visualización de la información
Unidad 2 | Periodismo de datos y visualización de la informaciónAnahiLovato
 
Aplicaciones para Twitter
Aplicaciones para TwitterAplicaciones para Twitter
Aplicaciones para TwitterAnahiLovato
 
Periodismo y redes sociales
Periodismo y redes socialesPeriodismo y redes sociales
Periodismo y redes socialesAnahiLovato
 
Titulares de noticias - Material para la observación
Titulares de noticias - Material para la observaciónTitulares de noticias - Material para la observación
Titulares de noticias - Material para la observaciónAnahiLovato
 
Homenaje a Mario Benedetti
Homenaje a Mario BenedettiHomenaje a Mario Benedetti
Homenaje a Mario BenedettiAnahiLovato
 
Titulares Informativos y Connotativos
Titulares Informativos y ConnotativosTitulares Informativos y Connotativos
Titulares Informativos y ConnotativosAnahiLovato
 
Musicaeidentidadmocovi
MusicaeidentidadmocoviMusicaeidentidadmocovi
MusicaeidentidadmocoviAnahiLovato
 
Desenmascaramiento Teatro
Desenmascaramiento  TeatroDesenmascaramiento  Teatro
Desenmascaramiento TeatroAnahiLovato
 
Desenmascaramiento
DesenmascaramientoDesenmascaramiento
DesenmascaramientoAnahiLovato
 

Más de AnahiLovato (10)

Unidad 2 | Periodismo de datos y visualización de la información
Unidad 2 | Periodismo de datos y visualización de la informaciónUnidad 2 | Periodismo de datos y visualización de la información
Unidad 2 | Periodismo de datos y visualización de la información
 
Aplicaciones para Twitter
Aplicaciones para TwitterAplicaciones para Twitter
Aplicaciones para Twitter
 
Periodismo y redes sociales
Periodismo y redes socialesPeriodismo y redes sociales
Periodismo y redes sociales
 
Titulares de noticias - Material para la observación
Titulares de noticias - Material para la observaciónTitulares de noticias - Material para la observación
Titulares de noticias - Material para la observación
 
Homenaje a Mario Benedetti
Homenaje a Mario BenedettiHomenaje a Mario Benedetti
Homenaje a Mario Benedetti
 
Titulares Informativos y Connotativos
Titulares Informativos y ConnotativosTitulares Informativos y Connotativos
Titulares Informativos y Connotativos
 
Musicaeidentidadmocovi
MusicaeidentidadmocoviMusicaeidentidadmocovi
Musicaeidentidadmocovi
 
Desenmascaramiento Teatro
Desenmascaramiento  TeatroDesenmascaramiento  Teatro
Desenmascaramiento Teatro
 
Desenmascaramiento
DesenmascaramientoDesenmascaramiento
Desenmascaramiento
 
Alfabetizacion
AlfabetizacionAlfabetizacion
Alfabetizacion
 

Scraping