Manipulacion de datos con Kettle
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Manipulacion de datos con Kettle

on

  • 5,301 views

Breve

Breve

Statistics

Views

Total Views
5,301
Views on SlideShare
5,297
Embed Views
4

Actions

Likes
2
Downloads
111
Comments
0

2 Embeds 4

http://www.linkedin.com 2
https://www.linkedin.com 2

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Manipulacion de datos con Kettle Presentation Transcript

  • 1. Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse [email_address] Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  • 2. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
    • ¿Qué es Kettle?
    • ¿Para qué sirve?
    • Principales características
    • Instalación
    • Ejemplos de uso - DEMO
    Contenido
  • 3.
    • Herramienta de ETL (extracción, transformación y carga) Open Source.
    • Creado por Matt Casters - @mattcasters
    • Adquirido por Pentaho en 2006. Actualmente se llama Pentaho Data Integration (PDI).
    • Desarrollado integramente en Java.
    • Licencia GNU LGPL.
    • Última versión estable 4.1.0 (30-11-2010).
    • Versión en desarrollo 4.2.0-RC1 (01-07-2011).
    ¿Qué es Kettle? Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  • 4.
    • Integración de datos
    • Carga de datawarehouses y datamarts
    • Limpieza de datos (data cleansing)
    • Análisis y perfilado de datos (data profiling)
    • Migración de datos entre Bases de datos
    • Exportar datos de Bases de datos a archivos planos
    • Etc, etc ...
    ¿Para qué sirve? Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  • 5.
    • GUI muy avanzada.
    • Soporte para gran cantidad de fuentes de información.
    • Basado en dos tipos de objetos diferentes:
    • Transformaciones
    • Trabajos
    • Las T&T utilizan un lenguaje descriptivo (XML).
    • Cuenta con herramientas y utilidades para crear, administrar y ejecutar T&T.
    • Permite extender las funcionalidad mediante el desarrollo de Plugins propios.
    Principales características Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  • 6. GUI muy avanzada Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  • 7. Fuentes de información Excel Bases de datos (+40): - PostgreSQL - MySql - Informix - dBase III, IV o 5 - Firebird SQL - IBM DB2 - MS SQL Server - MS Access - Oracle - SAP ERP System - Teradata - LucidDB - Hypersonic - Apache Derby - etc, etc ... Xml Txt / CSV RSS Salesforce Google Analytics Web services Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  • 8. Transformaciones
    • Orientación a los Datos. Representa una tarea ETL.
    • Es una colección de “ pasos ”. Cada paso es una operación particular sobre datos.
    • Los “ pasos ” se conectan entre sí a través de “ saltos ”, que indica cual será el flujo de los datos.
    • Los “ pasos ” trabajan de manera simultánea y asincrónica .
    Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  • 9. Trabajos
    • Orientación a la Tarea y a los Datos.
    • Usualmente un Trabajo se compone de una o más Transformaciones/Trabajos, que serán ejecutadas
    • secuencialmente .
    • La ejecución de cada “ Entrada de Trabajo ” presenta una
    • salida de status , que puede ser analizada para la realización
    • de diferentes acciones.
    Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  • 10.
    • Spoon : IDE gráfico para crear T&T.
    • Kitchen : herramienta de línea de comandos
    • para ejecutar Trabajos.
    • Pan : herramienta de línea de comandos para ejecutar Transformaciones.
    • Carte : servidor liviano para ejecutar T&T en host remotos.
    Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR Herramientas y utilidades para crear, administrar y ejecutar T&T
  • 11.
    • Pre-requisitos
    • - JRE (o JDK) 5.x o superior.
    • Descarga
    • - http://sourceforge.net/projects/pentaho/files/
    • - Carpeta “ Data Integration ”
    • - Versión 4.1.0 – 106.5 MB
    • - Versión 4.2.0-RC1 – 225.3 MB
    Instalación Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  • 12. Después de descomprimir el archivo - Ejecutar spoon.sh (Linux) o spoon.bat (Windows) Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  • 13. Pantalla de Bienvenida Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  • 14. Ejemplos de uso - DEMO Los ejemplos fueron extraidos del libro Pentaho Data Integration 4 Cookbook – María C. Roldán. (http://www.packtpub.com/support) 01 - leer un archivo txt. 02 - escribir un archivo txt. 03 - leyendo un archivo simple XML. 04 - leyendo un archivo excel. 05 - generando datos de ejemplo para testeo. 06 - cargando datos desde txt en una base postgresql. 07 - leyendo datos desde una base postgresql y exportarlos a un txt. 08 - programando una funcionalidad a medida. 09 - enviando e-mails con archivos adjuntos. 10 - copiando o moviendo uno a más archivos. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  • 15. Libros - Información Wiki SIU Pentaho : http://repositorio.siu.edu.ar/trac/dw_pentaho/wiki/WikiStart Foro SIU Comunidad : http://comunidad.siu.edu.ar/index.php?board=49.0 --------------------------------------------------------------------------------------------------------------- Sitio de PDI - Kettle: http://kettle.pentaho.com/ Foros Pentaho: http://forums.pentaho.com/ Pentaho Solutions - Roland Bouman, Jos van Dongen – Wiley - ISBN:978-0-470-48432-6 Pentaho 3.2 Data Integration: Beginner's Guide - María Carina Roldán - Packt Publishing - ISBN:1847199542 Pentaho Kettle Solutions - Matt Casters, Roland Bouman, Jos van Dongen – Wiley - ISBN:978-0-470-63517-9 Pentaho Data Integration 4 Cookbook - Adrián Sergio Pulvirenti, María Carina Roldán - Pack Publishing - ISBN: 978-1-84951-524-5 Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  • 16. ¿Preguntas? Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  • 17. Más información: www.siu.edu.ar [email_address] Muchas Gracias!!! Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR