• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Innovadata: Preparación de datos para su análisis
 

Innovadata: Preparación de datos para su análisis

on

  • 1,600 views

David Cabo cofundador y director de la fundación Civio nos enseña a extraer y analizar datos de diversas fuentes

David Cabo cofundador y director de la fundación Civio nos enseña a extraer y analizar datos de diversas fuentes

Statistics

Views

Total Views
1,600
Views on SlideShare
1,598
Embed Views
2

Actions

Likes
1
Downloads
0
Comments
0

1 Embed 2

http://bbva-innovacion.aspgd.net 2

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Innovadata: Preparación de datos para su análisis Innovadata: Preparación de datos para su análisis Presentation Transcript

    • ...Preparación de datospara su análisisDavid Cabo @dcaboCC BY-NC-SA
    • http://datos.fundacionctic.org/sandbox/catalog/faceted/
    • http://opendata.euskadi.net/w79-home/es
    • http://www.navarra.es/home_es/Open-Data/
    • PDFGeneradoelectrónicamente(buscable)ImagenescaneadaTablas Formato complejo
    • PDFGeneradoelectrónicamente(buscable)ImagenescaneadaFormato complejoTablas
    • Tablas1. Copiar y pegar a Excel no funciona bien2. Programas de pago: deskUNPDF, Nitro,Acrobat Pro...3. Servicios web gratuitos:• cometdocs.com• pdftoexcelonline.com• zamzar.com
    • TablasPDFGeneradoelectrónicamente(buscable)ImagenescaneadaFormato complejo
    • Formatos complejos• Columnas, datos partidos en varias lineas,datos intercalados entre el texto...• Las herramientas automáticas no suelen sercapaces de extraer la información• Es necesario:• extraer el texto del PDF (xpdf / poppler)• y crear un programa específico (Ruby,Python, Perl... + expresiones regulares)
    • TablasPDFGeneradoelectrónicamente(buscable)Formato complejoImagenescaneada
    • Imágenes• El texto original no está disponible: nopodemos buscar en él, ni copiarlo• Software para reconocer carácteres (OCR)• La fiabilidad depende de la calidad de laentrada (limpieza, resolución, tipo de letra)• Bastante trabajo:• Hay que revisar el resultado• Difícil de automatizar para muchos ficheros
    • OCROpen Source• Tesseract +OCROpus• Usado por Google• No es fácil de instalary utilizarComerciales• AbbyyReader• Adobe Acrobat Pro• Solid• Google Docs (gratis)
    • https://addons.mozilla.org/en-US/firefox/addon/dafizilla-table2clipboard/
    • https://support.google.com/docs/bin/answer.py?hl=en&answer=155182
    • https://scraperwiki.com/
    • http://open.dapper.net/
    • https://ws037.juntadeandalucia.es/riibp/inicio.do
    • http://trabajanparati.es
    • DONDEVANMISIMPUESTOS.ES
    • http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-dataRuby, Google Refine, Firebug, Nokogiri,Tesseract
    • ¿Preguntas?David Cabo (@dcabo)