Innovadata: Preparación de datos para su análisis

  • 1,235 views
Uploaded on

David Cabo cofundador y director de la fundación Civio nos enseña a extraer y analizar datos de diversas fuentes

David Cabo cofundador y director de la fundación Civio nos enseña a extraer y analizar datos de diversas fuentes

More in: Self Improvement
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
1,235
On Slideshare
0
From Embeds
0
Number of Embeds
2

Actions

Shares
Downloads
0
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. ...Preparación de datospara su análisisDavid Cabo @dcaboCC BY-NC-SA
  • 2. http://datos.fundacionctic.org/sandbox/catalog/faceted/
  • 3. http://opendata.euskadi.net/w79-home/es
  • 4. http://www.navarra.es/home_es/Open-Data/
  • 5. PDFGeneradoelectrónicamente(buscable)ImagenescaneadaTablas Formato complejo
  • 6. PDFGeneradoelectrónicamente(buscable)ImagenescaneadaFormato complejoTablas
  • 7. Tablas1. Copiar y pegar a Excel no funciona bien2. Programas de pago: deskUNPDF, Nitro,Acrobat Pro...3. Servicios web gratuitos:• cometdocs.com• pdftoexcelonline.com• zamzar.com
  • 8. TablasPDFGeneradoelectrónicamente(buscable)ImagenescaneadaFormato complejo
  • 9. Formatos complejos• Columnas, datos partidos en varias lineas,datos intercalados entre el texto...• Las herramientas automáticas no suelen sercapaces de extraer la información• Es necesario:• extraer el texto del PDF (xpdf / poppler)• y crear un programa específico (Ruby,Python, Perl... + expresiones regulares)
  • 10. TablasPDFGeneradoelectrónicamente(buscable)Formato complejoImagenescaneada
  • 11. Imágenes• El texto original no está disponible: nopodemos buscar en él, ni copiarlo• Software para reconocer carácteres (OCR)• La fiabilidad depende de la calidad de laentrada (limpieza, resolución, tipo de letra)• Bastante trabajo:• Hay que revisar el resultado• Difícil de automatizar para muchos ficheros
  • 12. OCROpen Source• Tesseract +OCROpus• Usado por Google• No es fácil de instalary utilizarComerciales• AbbyyReader• Adobe Acrobat Pro• Solid• Google Docs (gratis)
  • 13. https://addons.mozilla.org/en-US/firefox/addon/dafizilla-table2clipboard/
  • 14. https://support.google.com/docs/bin/answer.py?hl=en&answer=155182
  • 15. https://scraperwiki.com/
  • 16. http://open.dapper.net/
  • 17. https://ws037.juntadeandalucia.es/riibp/inicio.do
  • 18. http://trabajanparati.es
  • 19. DONDEVANMISIMPUESTOS.ES
  • 20. http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-dataRuby, Google Refine, Firebug, Nokogiri,Tesseract
  • 21. ¿Preguntas?David Cabo (@dcabo)