Openrefine limpieza profesional de datos

848 views

Published on

La web semántica no acaba de llegar: esa que promete datos estructurados y linkados para hacer de la web una inmensa base de datos.

En el camino nos encontramos con OpenRefine, una gran herramienta que nos permite hacer limpieza de datos (data wrangling) y enlazado con terceras fuentes.

Presentación preparada para los talleres de las Jornadas de Software Libre OSLUCA 2013:
http://osl.uca.es/talleres

Openrefine limpieza profesional de datos

  1. 1. OpenRefine Limpieza profesional de datos By @fontanon
  2. 2. OpenRefine Limpieza profesional al alcance de todos :) Funciones Funciones básicas básicas Abre todo tipo de formatos reutilizables Búsquedas facetadas Unifica/divide columnas Rellena celdas en base a patrones Dominar estas t écnicas solucionan el 80% de las necesidades de limpieza de datos Un poco de Un poco de magia magia Algoritmos de agrupamiento (Clustering) Enriquecimiento con fuentes externas No siempre son necesarias, pero cuando lo son ¡OpenRefine nos resuelve la vida !
  3. 3. Objetivo: Un dataset limpio Cada fila una observaci ón, cada columna una variable
  4. 4. Datasets ¿para qué? Descubrir las historias escondidas en los datos Comparativas Comparativas Por Proporciones internas/externas T abla Rankings La universidad administra el doble de becas de familia numerosa que por bajo ingreso de alumno. Exploración Exploración y y Agregados Agregados Análisis de Análisis de datos datos Series temporales por categorías Las becas universitarias a familias numerosas han descandido en un 25% en los últimos 10 a ños. Correlación de variables Modelado predictivo Las becas universitarias a familias numerosas llegar á a un 10% del importe actual en 2015.
  5. 5. EL método La web como fuente de datos Formula la Formula la pregunta pregunta correcta correcta Identifica Identifica fuentes de fuentes de datos datos Obtención Obtención y y Limpieza Limpieza Presenta Presenta resultados resultados Interpreta Interpreta resultados resultados Análisis Análisis
  6. 6. EL método La web como fuente de datos Formula la Formula la pregunta pregunta correcta correcta Identifica Identifica fuentes de fuentes de datos datos Presenta Presenta resultados resultados Interpreta Interpreta resultados resultados .. en . s re mo ra cent Nos Obtención Obtención y y Limpieza Limpieza Análisis Análisis
  7. 7. Formatos Soporta todo … lo reutilizable No No reutilizable reutilizable Información contenida en páginas web Documentos: PDF, Imágenes ... Requieren de t écnicas de extracci ón de datos Reutilizable Reutilizable Hojas de cálculo: XLS, ODS, CSV ... Machine-Readable: XML, JSON ... Facilitan el an álisis de forma directa
  8. 8. Playas Magrama Ejemplo de exploraci ón Descarga dataset original y transformaci ón (GitHub)
  9. 9. Los Papeles de Bárcenas Ejemplo de Armonizado y Clustering Descarga dataset original y transformaci ón (GitHub)
  10. 10. Ganadores de Oscars Ejemplo de enriquecimiento sem ántico Descarga dataset original y transformaci ón (GitHub)
  11. 11. OpenRefine Limpieza profesional de datos Por: J. Félix Ontañón @fontanon Para más información consultar: ● ● OpenRefine en tu kit de herramientas para hacer de la web una gran base de datos OpenRefine Website Tutorial OpenRefine ● Linked Open Data Refine (LodRefine) ● ● Using OpenRefine (ebook) S íguenos : http://openkratio.org

×