...Preparación de datospara su análisisDavid Cabo @dcaboCC BY-NC-SA
http://datos.fundacionctic.org/sandbox/catalog/faceted/
http://opendata.euskadi.net/w79-home/es
http://www.navarra.es/home_es/Open-Data/
PDFGeneradoelectrónicamente(buscable)ImagenescaneadaTablas Formato complejo
PDFGeneradoelectrónicamente(buscable)ImagenescaneadaFormato complejoTablas
Tablas1. Copiar y pegar a Excel no funciona bien2. Programas de pago: deskUNPDF, Nitro,Acrobat Pro...3. Servicios web grat...
TablasPDFGeneradoelectrónicamente(buscable)ImagenescaneadaFormato complejo
Formatos complejos• Columnas, datos partidos en varias lineas,datos intercalados entre el texto...• Las herramientas autom...
TablasPDFGeneradoelectrónicamente(buscable)Formato complejoImagenescaneada
Imágenes• El texto original no está disponible: nopodemos buscar en él, ni copiarlo• Software para reconocer carácteres (O...
OCROpen Source• Tesseract +OCROpus• Usado por Google• No es fácil de instalary utilizarComerciales• AbbyyReader• Adobe Acr...
https://addons.mozilla.org/en-US/firefox/addon/dafizilla-table2clipboard/
https://support.google.com/docs/bin/answer.py?hl=en&answer=155182
https://scraperwiki.com/
http://open.dapper.net/
https://ws037.juntadeandalucia.es/riibp/inicio.do
http://trabajanparati.es
DONDEVANMISIMPUESTOS.ES
http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-dataRuby, Google Refine, Firebug, Nokogiri,Tesseract
¿Preguntas?David Cabo (@dcabo)
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Innovadata: Preparación de datos para su análisis
Upcoming SlideShare
Loading in...5
×

Innovadata: Preparación de datos para su análisis

1,290

Published on

David Cabo cofundador y director de la fundación Civio nos enseña a extraer y analizar datos de diversas fuentes

Published in: Self Improvement
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,290
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Transcript of "Innovadata: Preparación de datos para su análisis"

  1. 1. ...Preparación de datospara su análisisDavid Cabo @dcaboCC BY-NC-SA
  2. 2. http://datos.fundacionctic.org/sandbox/catalog/faceted/
  3. 3. http://opendata.euskadi.net/w79-home/es
  4. 4. http://www.navarra.es/home_es/Open-Data/
  5. 5. PDFGeneradoelectrónicamente(buscable)ImagenescaneadaTablas Formato complejo
  6. 6. PDFGeneradoelectrónicamente(buscable)ImagenescaneadaFormato complejoTablas
  7. 7. Tablas1. Copiar y pegar a Excel no funciona bien2. Programas de pago: deskUNPDF, Nitro,Acrobat Pro...3. Servicios web gratuitos:• cometdocs.com• pdftoexcelonline.com• zamzar.com
  8. 8. TablasPDFGeneradoelectrónicamente(buscable)ImagenescaneadaFormato complejo
  9. 9. Formatos complejos• Columnas, datos partidos en varias lineas,datos intercalados entre el texto...• Las herramientas automáticas no suelen sercapaces de extraer la información• Es necesario:• extraer el texto del PDF (xpdf / poppler)• y crear un programa específico (Ruby,Python, Perl... + expresiones regulares)
  10. 10. TablasPDFGeneradoelectrónicamente(buscable)Formato complejoImagenescaneada
  11. 11. Imágenes• El texto original no está disponible: nopodemos buscar en él, ni copiarlo• Software para reconocer carácteres (OCR)• La fiabilidad depende de la calidad de laentrada (limpieza, resolución, tipo de letra)• Bastante trabajo:• Hay que revisar el resultado• Difícil de automatizar para muchos ficheros
  12. 12. OCROpen Source• Tesseract +OCROpus• Usado por Google• No es fácil de instalary utilizarComerciales• AbbyyReader• Adobe Acrobat Pro• Solid• Google Docs (gratis)
  13. 13. https://addons.mozilla.org/en-US/firefox/addon/dafizilla-table2clipboard/
  14. 14. https://support.google.com/docs/bin/answer.py?hl=en&answer=155182
  15. 15. https://scraperwiki.com/
  16. 16. http://open.dapper.net/
  17. 17. https://ws037.juntadeandalucia.es/riibp/inicio.do
  18. 18. http://trabajanparati.es
  19. 19. DONDEVANMISIMPUESTOS.ES
  20. 20. http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-dataRuby, Google Refine, Firebug, Nokogiri,Tesseract
  21. 21. ¿Preguntas?David Cabo (@dcabo)

×