"Los datos son al periodismo de la era internet lo que la cámara al periodismo de la era mass-media". Esta presentación, orientada a periodistas, mostrará técnicas para conseguir trabajar con datos reutilizables y no-reutilizables.
Presentación realizada para el evento X Blogs y Medios #ByMX
http://blogsymediosgranada.blogspot.com.es
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Extracción de datos desde información en la web
1. DDJ Extracción de datos#
Aprende a trabajar con datos en la webAprende a trabajar con datos en la web
By @fontanonBy @fontanon
2. Periodimo de datos DDJ#Periodimo de datos DDJ#
Descubrir las historias escondidas en los datosDescubrir las historias escondidas en los datos
ComparativasComparativas
Exploraci nó
y
Agregados
Exploraci nó
y
Agregados
An lisis deá
datos
An lisis deá
datos
Por ProporcionesPor Proporciones
internas/externasinternas/externas
TablaTabla RankingsRankings
La universidad administra el doble de becas de familiaLa universidad administra el doble de becas de familia
numerosa que por bajo ingreso de alumno.numerosa que por bajo ingreso de alumno.
Series temporalesSeries temporales
por categoríaspor categorías
Las becas universitarias a familias numerosas hanLas becas universitarias a familias numerosas han
descandido en un 25% en los ltimos 10 a os.ú ñdescandido en un 25% en los ltimos 10 a os.ú ñ
Correlación de variablesCorrelación de variables
Modelado predictivoModelado predictivo
Las becas universitarias a familias numerosas llegaráLas becas universitarias a familias numerosas llegará
a un 10% del importe actual en 2015.a un 10% del importe actual en 2015.
4. EL métodoEL método
Formula la
pregunta
correcta
Formula la
pregunta
correcta
Presenta
resultados
Presenta
resultados
Identifica
fuentes de
datos
Identifica
fuentes de
datos
Interpreta
resultados
Interpreta
resultados
Obtenci nó
y
Limpieza
Obtenci nó
y
Limpieza
An lisisáAn lisisá
La web como fuente de datosLa web como fuente de datos
Nos centraremos en ...
Nos centraremos en ...
5. Objetivo: UnObjetivo: Un datasetdataset limpiolimpio
Cada fila una observaci n, cada columna una variableóCada fila una observaci n, cada columna una variableó
6. FormatosFormatos
Hacen f cil o dif cil la obtenci n de informaci ná í ó óHacen f cil o dif cil la obtenci n de informaci ná í ó ó
ReutilizableReutilizable
Hojas de cálculo: XLS, ODS, CSV ...Hojas de cálculo: XLS, ODS, CSV ...
Machine-Readable: XML, JSON ...Machine-Readable: XML, JSON ...
Facilitan el an lisis de forma directaáFacilitan el an lisis de forma directaá
No
reutilizable
No
reutilizable
Información contenida en páginas webInformación contenida en páginas web
Documentos: PDF, Imágenes ...Documentos: PDF, Imágenes ...
Requieren de t cnicas de extracci n de datosé óRequieren de t cnicas de extracci n de datosé ó
7. RecomendacionesRecomendaciones
…… a tener en cuenta antes que ponerte a trabajar:a tener en cuenta antes que ponerte a trabajar:
Solicitud de
acceso a la
informaci nó
Solicitud de
acceso a la
informaci nó
Útil para obtener información públicaÚtil para obtener información pública
3 meses para obtener respuesta (ley 30/1992)3 meses para obtener respuesta (ley 30/1992)
Existe posibilidad de silencio administrativoExiste posibilidad de silencio administrativo
Necesitamos una ley de transparencia ya¡ !Necesitamos una ley de transparencia ya¡ !
Puedes apoyarte en tuderechoasaber.esPuedes apoyarte en tuderechoasaber.es
Licencia de
uso
Licencia de
uso
Dominio públicoDominio público
Algunos derechos reservadosAlgunos derechos reservados
Todos los derechos reservadosTodos los derechos reservados
Aseg rate de informarte y cumplir licenciaúAseg rate de informarte y cumplir licenciaú
antes que reutilizar datos.antes que reutilizar datos.
9. OpenRefineOpenRefine
Limpieza profesionalLimpieza profesional al alcance de todos :)al alcance de todos :)
Un poco de
magia
Un poco de
magia
Algoritmos de agrupamiento (Algoritmos de agrupamiento (ClusteringClustering))
Enriquecimiento con fuentes externasEnriquecimiento con fuentes externas
No siempre son necesarias, pero cuando loNo siempre son necesarias, pero cuando lo
son OpenRefine nos¡son OpenRefine nos¡ resuelve la vidaresuelve la vida!!
Funciones
b sicasá
Funciones
b sicasá
Abre todo tipo de formatos reutilizablesAbre todo tipo de formatos reutilizables
BúsquedasBúsquedas facetadasfacetadas
Unifica/divide columnasUnifica/divide columnas
Rellena celdas en base a patronesRellena celdas en base a patrones
Dominar estas t cnicas solucionan el 80% deéDominar estas t cnicas solucionan el 80% deé
las necesidades de limpieza de datoslas necesidades de limpieza de datos
10. Limpieza profesionalLimpieza profesional al alcance de todos :)al alcance de todos :)
Veamos un ejemplo ...Veamos un ejemplo ...
OpenRefineOpenRefine
Los papeles de B rcenasá
12. Ficheros PDFsFicheros PDFs
No siempre es posibleNo siempre es posible
CometDocs
Convierte de PDF a
varios formatos
CometDocs
Convierte de PDF a
varios formatos
Google Drive
Soporta conversi nó
OCR desde PDFs
Google Drive
Soporta conversi nó
OCR desde PDFs
Recomendamos:Recomendamos:
13. Ficheros PDFsFicheros PDFs
No siempre es posibleNo siempre es posible
Veamos un ejemplo ...Veamos un ejemplo ...
Presus Univ. Granada
14. Información en páginas webInformación en páginas web
Deber a ser siempre posibleíDeber a ser siempre posibleí
Multip ginaáMultip ginaá
Ruby NokogiriRuby Nokogiri
Python BeautifulScriptPython BeautifulScript
Consulte a su inform ticoáConsulte a su inform ticoá de cabecerade cabecera..
Busque ayuda en ScraperWiki.Busque ayuda en ScraperWiki.
Una sola
p ginaá
Una sola
p ginaá
¿Funciona Copiar / Pegar?¿Funciona Copiar / Pegar?
Scraping con Google SpreadsheetScraping con Google Spreadsheet
Plugin Scraper de Google ChromePlugin Scraper de Google Chrome
DapperDapper
ScrapingScraping sin programar. Limitado asin programar. Limitado a
informaci n contenida en una sola p gina.ó áinformaci n contenida en una sola p gina.ó á
15. Información en páginas webInformación en páginas web
Deber a ser siempre posibleíDeber a ser siempre posibleí
Veamos un ejemplo ...Veamos un ejemplo ...
US Bank Failures
16. Por: J. Félix OntañónPor: J. Félix Ontañón
@fontanon@fontanon
S guenosí : http://openkratio.org
Los datos son al
periodismo de la
era internet lo
que la c mara alá
periodismo de la
era mass-media
Para más información consultar:
DDJ Extracción de datos#DDJ Extracción de datos#
Aprende a trabajar con datos en la webAprende a trabajar con datos en la web