• Save
Periodismo de Datos y Visualización con herramientas Open Source
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Periodismo de Datos y Visualización con herramientas Open Source

on

  • 562 views

Periodismo de Datos y Visualización con herramientas Open Source como Pentaho

Periodismo de Datos y Visualización con herramientas Open Source como Pentaho

Statistics

Views

Total Views
562
Views on SlideShare
375
Embed Views
187

Actions

Likes
1
Downloads
0
Comments
0

17 Embeds 187

http://www.stratebi.com 52
http://todobi.blogspot.com.es 37
http://todobi.blogspot.com 28
http://feedly.com 18
http://www.dataprix.com 12
http://feedreader.com 8
http://todobi.blogspot.com.ar 6
http://www.inoreader.com 6
http://todobi.blogspot.mx 4
https://twitter.com 3
https://aulaglobal.uc3m.es 3
http://feeds.feedburner.com 3
http://newsblur.com 2
https://www.blogger.com 2
http://todobi.blogspot.ie 1
http://digg.com 1
http://mucho95.rssing.com 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Periodismo de Datos y Visualización con herramientas Open Source Presentation Transcript

  • 1. Trucos en el procesamiento y análisis de datos con Open Source Ignacio Bustillo @IgnacioBustillo info@stratebi.com
  • 2. Business Analytics Cómo hacer menos tonta la empresa
  • 3. Periodismo de datos
  • 4. Periodismo de datos
  • 5. Visualización Mapas Tablas Gráficos …
  • 6. Fuga2: data.elperiodico.com
  • 7. Dashboard Smartcities
  • 8. Lo esencial al analizar la información
  • 9. Análisis eficiente de datos Data Warehouse – Almacén de datos Repositorio centralizado de datos. Permite correlacionar indicadores y velocidad en consultas
  • 10. Análisis eficiente de datos
  • 11. Análisis eficiente de datos Transaccional DW Orientados a software Orientados a temas Utilizados para el funcionamiento del negocio Utilizados para analizar negocio Usados por empleados comunes Usados por ejecutivos y analistas Contiene datos detallados Contiene datos resumidos y refinados Contiene datos aislados Contiene datos integrados Acceso repetitivo y transac. pequeñas Acceso a medida con consultas complejas No hay redundancia (3FN) Se prima la rapidez al tamaño en disco
  • 12. Análisis eficiente de datos
  • 13. Análisis eficiente de datos
  • 14. Análisis eficiente de datos
  • 15. Análisis eficiente de datos HECHOS • Responden a la pregunta ¿Qué queremos medir? • Euros gastados, ventas, edad, unidades, coste, litros, kilos…. • Se agrupan en una tabla: La tabla de hechos o Fact Table: • Tabla central en un modelo multidimensional. • Almacena datos numéricos e indicadores clave (PKIs) • Están almacenados a un determinado nivel de detalle. • La mayoría de las veces, contiene hechos aditivos. • Las tablas de hechos tienden a crecen a “lo alto” Clave del Producto Clave de la tienda Clave del Tiempo Euros Unidades 1 2 12 300 5 1 7 3 1000 7 2 9 5 227 2
  • 16. Análisis eficiente de datos DIMENSIONES • Responden a la pregunta ¿Desde que puntos de vista quieres analizar los hechos? Por Mes o Año, Ciudad, Sede, Partida, Tipo de cliente … • Contienen los descriptores textuales de los hechos. • Están contenidas en tablas, cada dimensión en una tabla • Las tablas de dimensión tienden a crecen a “lo ancho” Clave_mes Mes 1 Enero 2 Febrero Producto Clave_producto 1 Libros 2 DVD Tienda Clave_tienda 7 Sevilla 2 Córdoba
  • 17. Análisis eficiente de datos
  • 18. Análisis eficiente de datos VS
  • 19. Canalizando los datos Herramientas de Extracción, Transformación y Carga (Load) ETL
  • 20. Periodismo de datos
  • 21. Herramientas ETL Software libre
  • 22. Herramientas ETL
  • 23. Herramientas ETL
  • 24. Algunas fuentes…
  • 25. Herramientas ETL Problemas que surgen: ¿Sabemos programar? SQL? Javascript? Java? Python? Php? ¿Tenemos paciencia? …De procesar tantas miles de filas a mano…. …De procesar tantos archivos a mano… ¿Qué significan los datos? ¿Sabemos usar todas las tecnologías? …Parseo JSON… …Lectura XLS…
  • 26. PENTAHO DATA INTEGRATION
  • 27. PENTAHO DATA INTEGRATION ¿Qué es Pentaho Data Integration? • PDI es un set de herramientas, que permite diseñar ETLs, mediante transformaciones y trabajos que pueden ser ejecutadas por las herramientas de Spoon, Pan y Kitchen. Antes se le conocía con el nombre de Kettle. •Spoon interfaz gráfica para diseño de trasformaciones y trabajos ETL. •Pan es un motor capaz de ejecutar múltiples transformaciones de datos como leer, manipular y escribir desde y en distintos orígenes de datos. •Kitchen es un programa que ejecuta los trabajos diseñados por Spoon. Normalmente estos trabajos son planificados en modo batch para ejecutar automáticamente a periodos regulares (crontab -e).
  • 28. PENTAHO DATA INTEGRATION Características y beneficios • Permite trabajar con un repositorio en Base de Datos o en Ficheros. • Su interfaz gráfica te permitirá crear de transformaciones y trabajos de manera intuitiva mediante pasos modulares ya creados, conexiones con múltiples fuentes, etc... • Distribución y combinación de diferentes fuentes, en diferentes hosts. • Interfaz SQL y generador de código automático. • Crear cálculos de una manera muy sencilla. • Define qué quieres hacer, no como quieres hacerlo. • Genera código XML y Java. • Instalación sencilla – sólo extraer los ficheros, aplicación Java. (ojo con la versión java -version) • Fácil de mantener, con alto rendimiento y escalabilidad. • Es posible parametrizar bastantes configuraciones (directorios, conexiones, mail). • Posee una arquitectura de Plug-in que te permitirá expandir sus funcionalidades.
  • 29. PENTAHO DATA INTEGRATION Spoon • Menú principal (rojo) • Pestaña vista (verde) • Pestaña design (azul) • Menú iconos (amarillo) • Zona de Trabajo
  • 30. PENTAHO DATA INTEGRATION Pestañas • Pestaña Vista (View): • Orígenes de Datos. • Pasos • Saltos • Esquemas • Servidores Esclavos • Esquemas en Cluster. • Pestaña Diseño (Design): • Entrada • Salida • Búsqueda • Transformar • Uniones • Scripting • Data Warehouse • Mapeado • Trabajo • Embebido • Experimental
  • 31. PENTAHO DATA INTEGRATION Menú de Iconos Icono Descripción Crear un nuevo trabajo o transformación o CNTRL - N Abrir un trabajo/transformación de un fichero o del repositorio si estas conectado a él. Guardar el trabajo/transformación a un fichero o al repositorio Guardar el trabajo/transformación con un nombre distinto. Abrir la ventana de impresora. Ejecutar el trabajo/transformación: ejecuta la transformación actual desde el fichero XML o el repositorio. Previsualizar la transformación: ejecuta la transformación actual desde memoria. Puedes previsualizar las filas producidas por el paso seleccionado Ejecutar la transformación en modo de pruebas permitiéndote la solución de errores de ejecución. Repetir el proceso de una transformación para una cierta fecha y hora. Esto causará que ciertos pasos (TextFile Input y Excel Input) sólo procesarán las filas que fallaron para ser interpretadas correctamente a esa fecha y hora particular. Ejecutar un análisis de impacto: que impacto tiene la transformación en la base de datos usada. Generar el SQL que es necesario para ejecutar la transformación. Lanza el explorador de la base de datos permitiéndote previsualizar los datos, ejecutar consultas SQL, generar DDL y más.
  • 32. PENTAHO DATA INTEGRATION Componentes de PDI (I) • Los procesos ETL se dividen en dos componentes principales: • Transformaciones (.ktr): es el conjunto de pasos básicos que componen el nivel más bajo de una ETL. • Trabajos (.kjb): es un conjunto de pasos, trabajos y transformaciones.
  • 33. PENTAHO DATA INTEGRATION Componentes de PDI (II) • Transformaciones: • Paso: son los elementos atómicos de PDI y cada uno realiza una transformación en el flujo de datos. (Leer datos, escribir en BBDD, crear cálculos, añadir constantes, ....) • Salto: es la representación gráfica del flujo de datos entre 2 pasos.
  • 34. PENTAHO DATA INTEGRATION Componentes de PDI (III) • Trabajos: • Paso: son los elementos atómicos de PDI y cada uno realiza una trabajo. (No modifican el flujo de datos) • Salto: representa el orden de ejecución de transformaciones y trabajos. • Trabajo y Transformación: dentro de un trabajo podemos incluir llamadas a otras transformaciones y/o trabajos para que sean ejecutadas. • Un trabajo procesa todos los registros antes de continuar, en cambio, una transformación es un flujo de datos continuo de manera que los registros avanzan por los pasos según llegan.
  • 35. A trabajar!
  • 36. PASO 1: Download & Instalación http://sourceforge.net/projects/pentaho/files/Data Integration/
  • 37. PASO 2: Descomprimir & abrir
  • 38. PASO 2: Desomprimir & abrir
  • 39. PASO 2: Let’s play!
  • 40. Ejercicios!
  • 41. Charts for dummies
  • 42. Generar Nombres aleatorios 1) Generar 10 filas 2) Generar aleatorios 3) Filtrar salida 4) Exportar Excel
  • 43. Estadísticas de Paro 1) Abrir csv 2) Seleccionar valores 3) Agrupaciones 4) Pintar
  • 44. Estadísticas de Paro
  • 45. Estadísticas de Paro
  • 46. EJERCICIO 2 1) Abrir Excel 1 y 2 2) Cruzar Excels 3) Agrupaciones 4) Pintar Excel con índices de innovación por países Maestro paises EN y ES +
  • 47. EJERCICIO 2
  • 48. Estadísticas innovación
  • 49. Comentarios Twitter #jdp14 1) Parsear JSON de monitorización #jpd14 2) Pintar
  • 50. Comentarios Twitter #jdp14