Manipulacion de datos con Kettle

8,157 views

Published on

Breve

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
8,157
On SlideShare
0
From Embeds
0
Number of Embeds
16
Actions
Shares
0
Downloads
181
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Manipulacion de datos con Kettle

  1. 1. Manipulación de datos con Kettle Ing. Marcos Pierri SIU-Datawarehouse [email_address] Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  2. 2. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR <ul><li>¿Qué es Kettle? </li></ul><ul><li>¿Para qué sirve? </li></ul><ul><li>Principales características </li></ul><ul><li>Instalación </li></ul><ul><li>Ejemplos de uso - DEMO </li></ul>Contenido
  3. 3. <ul><li>Herramienta de ETL (extracción, transformación y carga) Open Source. </li></ul><ul><li>Creado por Matt Casters - @mattcasters </li></ul><ul><li>Adquirido por Pentaho en 2006. Actualmente se llama Pentaho Data Integration (PDI). </li></ul><ul><li>Desarrollado integramente en Java. </li></ul><ul><li>Licencia GNU LGPL. </li></ul><ul><li>Última versión estable 4.1.0 (30-11-2010). </li></ul><ul><li>Versión en desarrollo 4.2.0-RC1 (01-07-2011). </li></ul>¿Qué es Kettle? Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  4. 4. <ul><li>Integración de datos </li></ul><ul><li>Carga de datawarehouses y datamarts </li></ul><ul><li>Limpieza de datos (data cleansing) </li></ul><ul><li>Análisis y perfilado de datos (data profiling) </li></ul><ul><li>Migración de datos entre Bases de datos </li></ul><ul><li>Exportar datos de Bases de datos a archivos planos </li></ul><ul><li>Etc, etc ... </li></ul>¿Para qué sirve? Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  5. 5. <ul><li>GUI muy avanzada. </li></ul><ul><li>Soporte para gran cantidad de fuentes de información. </li></ul><ul><li>Basado en dos tipos de objetos diferentes: </li></ul><ul><li>Transformaciones </li></ul><ul><li>Trabajos </li></ul><ul><li>Las T&T utilizan un lenguaje descriptivo (XML). </li></ul><ul><li>Cuenta con herramientas y utilidades para crear, administrar y ejecutar T&T. </li></ul><ul><li>Permite extender las funcionalidad mediante el desarrollo de Plugins propios. </li></ul>Principales características Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  6. 6. GUI muy avanzada Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  7. 7. Fuentes de información Excel Bases de datos (+40): - PostgreSQL - MySql - Informix - dBase III, IV o 5 - Firebird SQL - IBM DB2 - MS SQL Server - MS Access - Oracle - SAP ERP System - Teradata - LucidDB - Hypersonic - Apache Derby - etc, etc ... Xml Txt / CSV RSS Salesforce Google Analytics Web services Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  8. 8. Transformaciones <ul><li>Orientación a los Datos. Representa una tarea ETL. </li></ul><ul><li>Es una colección de “ pasos ”. Cada paso es una operación particular sobre datos. </li></ul><ul><li>Los “ pasos ” se conectan entre sí a través de “ saltos ”, que indica cual será el flujo de los datos. </li></ul><ul><li>Los “ pasos ” trabajan de manera simultánea y asincrónica . </li></ul>Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  9. 9. Trabajos <ul><li>Orientación a la Tarea y a los Datos. </li></ul><ul><li>Usualmente un Trabajo se compone de una o más Transformaciones/Trabajos, que serán ejecutadas </li></ul><ul><li>secuencialmente . </li></ul><ul><li>La ejecución de cada “ Entrada de Trabajo ” presenta una </li></ul><ul><li>salida de status , que puede ser analizada para la realización </li></ul><ul><li>de diferentes acciones. </li></ul>Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  10. 10. <ul><li>Spoon : IDE gráfico para crear T&T. </li></ul><ul><li>Kitchen : herramienta de línea de comandos </li></ul><ul><li>para ejecutar Trabajos. </li></ul><ul><li>Pan : herramienta de línea de comandos para ejecutar Transformaciones. </li></ul><ul><li>Carte : servidor liviano para ejecutar T&T en host remotos. </li></ul>Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR Herramientas y utilidades para crear, administrar y ejecutar T&T
  11. 11. <ul><li>Pre-requisitos </li></ul><ul><li>- JRE (o JDK) 5.x o superior. </li></ul><ul><li>Descarga </li></ul><ul><li>- http://sourceforge.net/projects/pentaho/files/ </li></ul><ul><li>- Carpeta “ Data Integration ” </li></ul><ul><li>- Versión 4.1.0 – 106.5 MB </li></ul><ul><li>- Versión 4.2.0-RC1 – 225.3 MB </li></ul>Instalación Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  12. 12. Después de descomprimir el archivo - Ejecutar spoon.sh (Linux) o spoon.bat (Windows) Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  13. 13. Pantalla de Bienvenida Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  14. 14. Ejemplos de uso - DEMO Los ejemplos fueron extraidos del libro Pentaho Data Integration 4 Cookbook – María C. Roldán. (http://www.packtpub.com/support) 01 - leer un archivo txt. 02 - escribir un archivo txt. 03 - leyendo un archivo simple XML. 04 - leyendo un archivo excel. 05 - generando datos de ejemplo para testeo. 06 - cargando datos desde txt en una base postgresql. 07 - leyendo datos desde una base postgresql y exportarlos a un txt. 08 - programando una funcionalidad a medida. 09 - enviando e-mails con archivos adjuntos. 10 - copiando o moviendo uno a más archivos. Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  15. 15. Libros - Información Wiki SIU Pentaho : http://repositorio.siu.edu.ar/trac/dw_pentaho/wiki/WikiStart Foro SIU Comunidad : http://comunidad.siu.edu.ar/index.php?board=49.0 --------------------------------------------------------------------------------------------------------------- Sitio de PDI - Kettle: http://kettle.pentaho.com/ Foros Pentaho: http://forums.pentaho.com/ Pentaho Solutions - Roland Bouman, Jos van Dongen – Wiley - ISBN:978-0-470-48432-6 Pentaho 3.2 Data Integration: Beginner's Guide - María Carina Roldán - Packt Publishing - ISBN:1847199542 Pentaho Kettle Solutions - Matt Casters, Roland Bouman, Jos van Dongen – Wiley - ISBN:978-0-470-63517-9 Pentaho Data Integration 4 Cookbook - Adrián Sergio Pulvirenti, María Carina Roldán - Pack Publishing - ISBN: 978-1-84951-524-5 Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  16. 16. ¿Preguntas? Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR
  17. 17. Más información: www.siu.edu.ar [email_address] Muchas Gracias!!! Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilagá - 15 y 16 de septiembre 2011 – UNCOR

×