Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Periodismo de Datos y Visualización con herramientas Open Source

3,376 views

Published on

Periodismo de Datos y Visualización con herramientas Open Source como Pentaho

Published in: Data & Analytics
  • Be the first to comment

Periodismo de Datos y Visualización con herramientas Open Source

  1. 1. Trucos en el procesamiento y análisis de datos con Open Source Ignacio Bustillo @IgnacioBustillo info@stratebi.com
  2. 2. Business Analytics Cómo hacer menos tonta la empresa
  3. 3. Periodismo de datos
  4. 4. Periodismo de datos
  5. 5. Visualización Mapas Tablas Gráficos …
  6. 6. Fuga2: data.elperiodico.com
  7. 7. Dashboard Smartcities
  8. 8. Lo esencial al analizar la información
  9. 9. Análisis eficiente de datos Data Warehouse – Almacén de datos Repositorio centralizado de datos. Permite correlacionar indicadores y velocidad en consultas
  10. 10. Análisis eficiente de datos
  11. 11. Análisis eficiente de datos Transaccional DW Orientados a software Orientados a temas Utilizados para el funcionamiento del negocio Utilizados para analizar negocio Usados por empleados comunes Usados por ejecutivos y analistas Contiene datos detallados Contiene datos resumidos y refinados Contiene datos aislados Contiene datos integrados Acceso repetitivo y transac. pequeñas Acceso a medida con consultas complejas No hay redundancia (3FN) Se prima la rapidez al tamaño en disco
  12. 12. Análisis eficiente de datos
  13. 13. Análisis eficiente de datos
  14. 14. Análisis eficiente de datos
  15. 15. Análisis eficiente de datos HECHOS • Responden a la pregunta ¿Qué queremos medir? • Euros gastados, ventas, edad, unidades, coste, litros, kilos…. • Se agrupan en una tabla: La tabla de hechos o Fact Table: • Tabla central en un modelo multidimensional. • Almacena datos numéricos e indicadores clave (PKIs) • Están almacenados a un determinado nivel de detalle. • La mayoría de las veces, contiene hechos aditivos. • Las tablas de hechos tienden a crecen a “lo alto” Clave del Producto Clave de la tienda Clave del Tiempo Euros Unidades 1 2 12 300 5 1 7 3 1000 7 2 9 5 227 2
  16. 16. Análisis eficiente de datos DIMENSIONES • Responden a la pregunta ¿Desde que puntos de vista quieres analizar los hechos? Por Mes o Año, Ciudad, Sede, Partida, Tipo de cliente … • Contienen los descriptores textuales de los hechos. • Están contenidas en tablas, cada dimensión en una tabla • Las tablas de dimensión tienden a crecen a “lo ancho” Clave_mes Mes 1 Enero 2 Febrero Producto Clave_producto 1 Libros 2 DVD Tienda Clave_tienda 7 Sevilla 2 Córdoba
  17. 17. Análisis eficiente de datos
  18. 18. Análisis eficiente de datos VS
  19. 19. Canalizando los datos Herramientas de Extracción, Transformación y Carga (Load) ETL
  20. 20. Periodismo de datos
  21. 21. Herramientas ETL Software libre
  22. 22. Herramientas ETL
  23. 23. Herramientas ETL
  24. 24. Algunas fuentes…
  25. 25. Herramientas ETL Problemas que surgen: ¿Sabemos programar? SQL? Javascript? Java? Python? Php? ¿Tenemos paciencia? …De procesar tantas miles de filas a mano…. …De procesar tantos archivos a mano… ¿Qué significan los datos? ¿Sabemos usar todas las tecnologías? …Parseo JSON… …Lectura XLS…
  26. 26. PENTAHO DATA INTEGRATION
  27. 27. PENTAHO DATA INTEGRATION ¿Qué es Pentaho Data Integration? • PDI es un set de herramientas, que permite diseñar ETLs, mediante transformaciones y trabajos que pueden ser ejecutadas por las herramientas de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle. •Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL. •Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y escribir desde y en distintos orígenes de datos. •Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos trabajos son planificados en modo batch para ejecutar automáticamente a periodos regulares (crontab -e).
  28. 28. PENTAHO DATA INTEGRATION Características y beneficios • Permite trabajar con un repositorio en Base de Datos o en Ficheros. • Su interfaz gráfica te permitirá crear de transformaciones y trabajos de manera intuitiva mediante pasos modulares ya creados, conexiones con múltiples fuentes, etc... • Distribución y combinación de diferentes fuentes, en diferentes hosts. • Interfaz SQL y generador de código automático. • Crear cálculos de una manera muy sencilla. • Define qué quieres hacer, no como quieres hacerlo. • Genera código XML y Java. • Instalación sencilla – sólo extraer los ficheros, aplicación Java. (ojo con la versión java -version) • Fácil de mantener, con alto rendimiento y escalabilidad. • Es posible parametrizar bastantes configuraciones (directorios, conexiones, mail). • Posee una arquitectura de Plug-in que te permitirá expandir sus funcionalidades.
  29. 29. PENTAHO DATA INTEGRATION Spoon • Menú principal (rojo) • Pestaña vista (verde) • Pestaña design (azul) • Menú iconos (amarillo) • Zona de Trabajo
  30. 30. PENTAHO DATA INTEGRATION Pestañas • Pestaña Vista (View): • Orígenes de Datos. • Pasos • Saltos • Esquemas • Servidores Esclavos • Esquemas en Cluster. • Pestaña Diseño (Design): • Entrada • Salida • Búsqueda • Transformar • Uniones • Scripting • Data Warehouse • Mapeado • Trabajo • Embebido • Experimental
  31. 31. PENTAHO DATA INTEGRATION Menú de Iconos Icono Descripción Crear un nuevo trabajo o transformación o CNTRL - N Abrir un trabajo/transformación de un fichero o del repositorio si estas conectado a él. Guardar el trabajo/transformación a un fichero o al repositorio Guardar el trabajo/transformación con un nombre distinto. Abrir la ventana de impresora. Ejecutar el trabajo/transformación: ejecuta la transformación actual desde el fichero XML o el repositorio. Previsualizar la transformación: ejecuta la transformación actual desde memoria. Puedes previsualizar las filas producidas por el paso seleccionado Ejecutar la transformación en modo de pruebas permitiéndote la solución de errores de ejecución. Repetir el proceso de una transformación para una cierta fecha y hora. Esto causará que ciertos pasos (TextFile Input y Excel Input) sólo procesarán las filas que fallaron para ser interpretadas correctamente a esa fecha y hora particular. Ejecutar un análisis de impacto: que impacto tiene la transformación en la base de datos usada. Generar el SQL que es necesario para ejecutar la transformación. Lanza el explorador de la base de datos permitiéndote previsualizar los datos, ejecutar consultas SQL, generar DDL y más.
  32. 32. PENTAHO DATA INTEGRATION Componentes de PDI (I) • Los procesos ETL se dividen en dos componentes principales: • Transformaciones (.ktr): es el conjunto de pasos básicos que componen el nivel más bajo de una ETL. • Trabajos (.kjb): es un conjunto de pasos, trabajos y transformaciones.
  33. 33. PENTAHO DATA INTEGRATION Componentes de PDI (II) • Transformaciones: • Paso: son los elementos atómicos de PDI y cada uno realiza una transformación en el flujo de datos. (Leer datos, escribir en BBDD, crear cálculos, añadir constantes, ....) • Salto: es la representación gráfica del flujo de datos entre 2 pasos.
  34. 34. PENTAHO DATA INTEGRATION Componentes de PDI (III) • Trabajos: • Paso: son los elementos atómicos de PDI y cada uno realiza una trabajo. (No modifican el flujo de datos) • Salto: representa el orden de ejecución de transformaciones y trabajos. • Trabajo y Transformación: dentro de un trabajo podemos incluir llamadas a otras transformaciones y/o trabajos para que sean ejecutadas. • Un trabajo procesa todos los registros antes de continuar, en cambio, una transformación es un flujo de datos continuo de manera que los registros avanzan por los pasos según llegan.
  35. 35. A trabajar!
  36. 36. PASO 1: Download & Instalación http://sourceforge.net/projects/pentaho/files/Data Integration/
  37. 37. PASO 2: Descomprimir & abrir
  38. 38. PASO 2: Desomprimir & abrir
  39. 39. PASO 2: Let’s play!
  40. 40. Ejercicios!
  41. 41. Charts for dummies
  42. 42. Generar Nombres aleatorios 1) Generar 10 filas 2) Generar aleatorios 3) Filtrar salida 4) Exportar Excel
  43. 43. Estadísticas de Paro 1) Abrir csv 2) Seleccionar valores 3) Agrupaciones 4) Pintar
  44. 44. Estadísticas de Paro
  45. 45. Estadísticas de Paro
  46. 46. EJERCICIO 2 1) Abrir Excel 1 y 2 2) Cruzar Excels 3) Agrupaciones 4) Pintar Excel con índices de innovación por países Maestro paises EN y ES +
  47. 47. EJERCICIO 2
  48. 48. Estadísticas innovación
  49. 49. Comentarios Twitter #jdp14 1) Parsear JSON de monitorización #jpd14 2) Pintar
  50. 50. Comentarios Twitter #jdp14

×