Extracción de datos desde información en la web
Upcoming SlideShare
Loading in...5
×
 

Extracción de datos desde información en la web

on

  • 1,462 views

"Los datos son al periodismo de la era internet lo que la cámara al periodismo de la era mass-media". Esta presentación, orientada a periodistas, mostrará técnicas para conseguir trabajar con ...

"Los datos son al periodismo de la era internet lo que la cámara al periodismo de la era mass-media". Esta presentación, orientada a periodistas, mostrará técnicas para conseguir trabajar con datos reutilizables y no-reutilizables.

Presentación realizada para el evento X Blogs y Medios #ByMX
http://blogsymediosgranada.blogspot.com.es

Statistics

Views

Total Views
1,462
Views on SlideShare
930
Embed Views
532

Actions

Likes
7
Downloads
4
Comments
0

3 Embeds 532

http://www.scoop.it 487
https://twitter.com 41
http://pruebas.ec3metrics.com 4

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-ShareAlike LicenseCC Attribution-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Extracción de datos desde información en la web Extracción de datos desde información en la web Presentation Transcript

    • DDJ Extracción de datos#Aprende a trabajar con datos en la webAprende a trabajar con datos en la webBy @fontanonBy @fontanon
    • Periodimo de datos DDJ#Periodimo de datos DDJ#Descubrir las historias escondidas en los datosDescubrir las historias escondidas en los datosComparativasComparativasExploraci nóyAgregadosExploraci nóyAgregadosAn lisis deádatosAn lisis deádatosPor ProporcionesPor Proporcionesinternas/externasinternas/externasTablaTabla RankingsRankingsLa universidad administra el doble de becas de familiaLa universidad administra el doble de becas de familianumerosa que por bajo ingreso de alumno.numerosa que por bajo ingreso de alumno.Series temporalesSeries temporalespor categoríaspor categoríasLas becas universitarias a familias numerosas hanLas becas universitarias a familias numerosas handescandido en un 25% en los ltimos 10 a os.ú ñdescandido en un 25% en los ltimos 10 a os.ú ñCorrelación de variablesCorrelación de variablesModelado predictivoModelado predictivoLas becas universitarias a familias numerosas llegaráLas becas universitarias a familias numerosas llegaráa un 10% del importe actual en 2015.a un 10% del importe actual en 2015.
    • EL métodoEL métodoPresentaresultadosPresentaresultadosInterpretaresultadosInterpretaresultadosObtenci nóyLimpiezaObtenci nóyLimpiezaAn lisisáAn lisisáLa web como fuente de datosLa web como fuente de datosFormula lapreguntacorrectaFormula lapreguntacorrectaIdentificafuentes dedatosIdentificafuentes dedatos
    • EL métodoEL métodoFormula lapreguntacorrectaFormula lapreguntacorrectaPresentaresultadosPresentaresultadosIdentificafuentes dedatosIdentificafuentes dedatosInterpretaresultadosInterpretaresultadosObtenci nóyLimpiezaObtenci nóyLimpiezaAn lisisáAn lisisáLa web como fuente de datosLa web como fuente de datosNos centraremos en ...Nos centraremos en ...
    • Objetivo: UnObjetivo: Un datasetdataset limpiolimpioCada fila una observaci n, cada columna una variableóCada fila una observaci n, cada columna una variableó
    • FormatosFormatosHacen f cil o dif cil la obtenci n de informaci ná í ó óHacen f cil o dif cil la obtenci n de informaci ná í ó óReutilizableReutilizableHojas de cálculo: XLS, ODS, CSV ...Hojas de cálculo: XLS, ODS, CSV ...Machine-Readable: XML, JSON ...Machine-Readable: XML, JSON ...Facilitan el an lisis de forma directaáFacilitan el an lisis de forma directaáNoreutilizableNoreutilizableInformación contenida en páginas webInformación contenida en páginas webDocumentos: PDF, Imágenes ...Documentos: PDF, Imágenes ...Requieren de t cnicas de extracci n de datosé óRequieren de t cnicas de extracci n de datosé ó
    • RecomendacionesRecomendaciones…… a tener en cuenta antes que ponerte a trabajar:a tener en cuenta antes que ponerte a trabajar:Solicitud deacceso a lainformaci nóSolicitud deacceso a lainformaci nóÚtil para obtener información públicaÚtil para obtener información pública3 meses para obtener respuesta (ley 30/1992)3 meses para obtener respuesta (ley 30/1992)Existe posibilidad de silencio administrativoExiste posibilidad de silencio administrativoNecesitamos una ley de transparencia ya¡ !Necesitamos una ley de transparencia ya¡ !Puedes apoyarte en tuderechoasaber.esPuedes apoyarte en tuderechoasaber.esLicencia deusoLicencia deusoDominio públicoDominio públicoAlgunos derechos reservadosAlgunos derechos reservadosTodos los derechos reservadosTodos los derechos reservadosAseg rate de informarte y cumplir licenciaúAseg rate de informarte y cumplir licenciaúantes que reutilizar datos.antes que reutilizar datos.
    • 1reutilizables#reutilizables#Un poco de limpieza y a trabajar
    • OpenRefineOpenRefineLimpieza profesionalLimpieza profesional al alcance de todos :)al alcance de todos :)Un poco demagiaUn poco demagiaAlgoritmos de agrupamiento (Algoritmos de agrupamiento (ClusteringClustering))Enriquecimiento con fuentes externasEnriquecimiento con fuentes externasNo siempre son necesarias, pero cuando loNo siempre son necesarias, pero cuando loson OpenRefine nos¡son OpenRefine nos¡ resuelve la vidaresuelve la vida!!Funcionesb sicasáFuncionesb sicasáAbre todo tipo de formatos reutilizablesAbre todo tipo de formatos reutilizablesBúsquedasBúsquedas facetadasfacetadasUnifica/divide columnasUnifica/divide columnasRellena celdas en base a patronesRellena celdas en base a patronesDominar estas t cnicas solucionan el 80% deéDominar estas t cnicas solucionan el 80% deélas necesidades de limpieza de datoslas necesidades de limpieza de datos
    • Limpieza profesionalLimpieza profesional al alcance de todos :)al alcance de todos :)Veamos un ejemplo ...Veamos un ejemplo ...OpenRefineOpenRefineLos papeles de B rcenasá
    • 2No reutilizables#No reutilizables#Va a tocar hacer scrapping
    • Ficheros PDFsFicheros PDFsNo siempre es posibleNo siempre es posibleCometDocsConvierte de PDF avarios formatosCometDocsConvierte de PDF avarios formatosGoogle DriveSoporta conversi nóOCR desde PDFsGoogle DriveSoporta conversi nóOCR desde PDFsRecomendamos:Recomendamos:
    • Ficheros PDFsFicheros PDFsNo siempre es posibleNo siempre es posibleVeamos un ejemplo ...Veamos un ejemplo ...Presus Univ. Granada
    • Información en páginas webInformación en páginas webDeber a ser siempre posibleíDeber a ser siempre posibleíMultip ginaáMultip ginaáRuby NokogiriRuby NokogiriPython BeautifulScriptPython BeautifulScriptConsulte a su inform ticoáConsulte a su inform ticoá de cabecerade cabecera..Busque ayuda en ScraperWiki.Busque ayuda en ScraperWiki.Una solap ginaáUna solap ginaá¿Funciona Copiar / Pegar?¿Funciona Copiar / Pegar?Scraping con Google SpreadsheetScraping con Google SpreadsheetPlugin Scraper de Google ChromePlugin Scraper de Google ChromeDapperDapperScrapingScraping sin programar. Limitado asin programar. Limitado ainformaci n contenida en una sola p gina.ó áinformaci n contenida en una sola p gina.ó á
    • Información en páginas webInformación en páginas webDeber a ser siempre posibleíDeber a ser siempre posibleíVeamos un ejemplo ...Veamos un ejemplo ...US Bank Failures
    • Por: J. Félix OntañónPor: J. Félix Ontañón@fontanon@fontanonS guenosí : http://openkratio.orgLos datos son alperiodismo de laera internet loque la c mara aláperiodismo de laera mass-mediaPara más información consultar:DDJ Extracción de datos#DDJ Extracción de datos#Aprende a trabajar con datos en la webAprende a trabajar con datos en la web