Your SlideShare is downloading. ×
Pentaho PDI
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

Pentaho PDI

3,681
views

Published on

Presentación sobre Pentaho Data Integration

Presentación sobre Pentaho Data Integration

Published in: Technology, Education

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
3,681
On Slideshare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
204
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Pentaho Data Integration (Kettle) Ing. Marcos Pierri Ing. Marcos Pierri SIU-Datawarehouse SIU-Datawarehouse dw@siu.edu.ar dw@siu.edu.arJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 2.   Proyecto open source adquirido Proyecto open source adquirido por Pentaho en 2006 por Pentaho en 2006   Desarrollado por Matt Casters Desarrollado por Matt Casters   Anteriormente conocido como Kettle Anteriormente conocido como Kettle KDE Extraction, KDE Extraction, Transportation, Transportation, Transformation and Transformation and Loading Environment Loading EnvironmentJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 3. Usos comunesUsos comunes   Carga de datawarehouses y datamarts Carga de datawarehouses y datamarts   Integración de datos Integración de datos   Limpieza de datos (Data cleansing) Limpieza de datos (Data cleansing)   Migración y depuración de datos Migración y depuración de datos   Exportación de datos Exportación de datos   ... ...Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 4. Cargando datos en un DW o datamart Cargando datos en un DW o datamart Extracción Extracción Proceso de Proceso de Transformación Transformación ETL ETL Carga CargaJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 5. validación y descarte validación y descarte de datos de diferentes de datos de diferentes Extracción Extracción de datos de acuerdo de datos de acuerdo fuentes y formatos fuentes y formatos a reglas y patrones a reglas y patrones de datos de acuerdo de datos de acuerdo Conversión de tipos de Conversión de tipos de Transformación Transformación con requisitos con requisitos datos, filtrado de datos, datos, filtrado de datos, técnicos y del negocio técnicos y del negocio sumarizaciones sumarizaciones de datos de datos Reescritura de datos Reescritura de datos Carga Carga transformados en transformados en y adición de y adición de una base de datos una base de datos nueva información nueva informaciónJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 6. Carga Carga Extracción Extracción Transformación TransformaciónJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 7. Actividades de Extracción Actividades de Extracción   Captura de datos Captura de datos * Lectura a partir de diversas fuentes. * Lectura a partir de diversas fuentes. * Identificación de cambios desde la última extracción. * Identificación de cambios desde la última extracción.   Staging Staging * Almacenamiento temporario de datos. * Almacenamiento temporario de datos.Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 8. Fuentes de entrada de datos Fuentes de entrada de datos Acces Acces Excel Excel Tabla BD Tabla BD Xml Xml Txt Txt RSS RSSJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 9. Actividades de Transformación Actividades de Transformación   Validación de datos Validación de datos * Verificar que los datos sean correctos y precisos. * Verificar que los datos sean correctos y precisos. * Filtrado de datos inválidos. * Filtrado de datos inválidos.   Limpieza de datos Limpieza de datos * Corrección de datos inválidos. * Corrección de datos inválidos.   Agregación Agregación   Generación y gestión de claves Generación y gestión de claves * SK – Claves subrogadas. * SK – Claves subrogadas.Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 10. Actividades de Carga Actividades de Carga -- Carga de tablas de hechos Carga de tablas de hechos * Adicionar registros a la tabla de hechos. * Adicionar registros a la tabla de hechos. -- Carga y mantenimiento de las tablas de dimensiones Carga y mantenimiento de las tablas de dimensiones * Adicionar y actualizar los registros de las tablas de * Adicionar y actualizar los registros de las tablas de Dimensiones. Dimensiones.Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 11. Instalando PDI Instalando PDI   Pre-requisitos Pre-requisitos * JRE (ou JDK) 5.x o superior. * JRE (ou JDK) 5.x o superior.   Descarga Descarga * http://sourceforge.net/projects/pentaho/files/ * http://sourceforge.net/projects/pentaho/files/ * Carpeta “Data Integration” * Carpeta “Data Integration” * 4.1.0 – 106.5 MB * 4.1.0 – 106.5 MBJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 12. Después de descomprimir el archivo Después de descomprimir el archivo * Ejecutar spoon.sh (Linux) o spoon.bat (Windows) * Ejecutar spoon.sh (Linux) o spoon.bat (Windows)Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 13. Pantalla de Bienvenida Pantalla de BienvenidaJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 14. - Opciones de configuración del área de- Opciones de configuración del área detrabajo de Spoontrabajo de Spoon Solapa “General” Solapa “General”* Show tips at startup?* Show tips at startup?* Show welcome page at startup?* Show welcome page at startup?* ...* ... Solapa “Look & Feel” Solapa “Look & Feel”* Preferred Language* Preferred Language* ...* ... - Los cambios serán aplicados al reiniciar Spoon - Los cambios serán aplicados al reiniciar Spoon Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 15. Principales Componentes de PDIPrincipales Componentes de PDI PDI trabaja con dos tipos básicos de componentes: PDI trabaja con dos tipos básicos de componentes: * Transformaciones * Transformaciones * Trabajos (Jobs) * Trabajos (Jobs) Características de las transformaciones y trabajos Características de las transformaciones y trabajos * Define el flujo del proceso de ETL * Define el flujo del proceso de ETL * Contiene los metadatos del proceso de ETL * Contiene los metadatos del proceso de ETL -- Descripción de los datos. Descripción de los datos. -- Fuentes de entrada y salida. Fuentes de entrada y salida. -- Scheduling. Scheduling. -- Scripting. Scripting.Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 16. ¿Cómo se ejecutan las transformaciones y trabajos?¿Cómo se ejecutan las transformaciones y trabajos?* Una transformación o trabajo consiste en una colección de pasos* Una transformación o trabajo consiste en una colección de pasos(steps) interconectados(steps) interconectados Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 17. Conexiones entre los pasos de las transformacionesConexiones entre los pasos de las transformacionesy trabajosy trabajos* Saltos (Hops): Representa un flujo de registros entre dos pasos.* Saltos (Hops): Representa un flujo de registros entre dos pasos. Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 18. - Steps, Hops y flujo de registros- Steps, Hops y flujo de registros (Bouman and Dongen – Pentaho Solutions, 2009) (Bouman and Dongen – Pentaho Solutions, 2009)Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 19. TransformacionesTransformaciones Trabajos (Jobs) Trabajos (Jobs)* Consiste en una colección de Steps* Consiste en una colección de Steps * Consiste en una colección de * Consiste en una colección dede transformación.de transformación. transformaciones o de Steps de transformaciones o de Steps de trabajos. trabajos.* Cada Step denota una operación* Cada Step denota una operacióndel proceso de ETL.del proceso de ETL. * Cada Step del trabajo denota una * Cada Step del trabajo denota una tarea del proceso de ETL. tarea del proceso de ETL.* La salida de un Step produce un* La salida de un Step produce unconjunto de registros.conjunto de registros. * La salida de cada Step del trabajo * La salida de cada Step del trabajo produce un Status de ejecución. produce un Status de ejecución.* Los Steps de la transformación se* Los Steps de la transformación seejecutan de forma simultánea yejecutan de forma simultánea y * Los Steps del trabajo se ejecutan * Los Steps del trabajo se ejecutanasincrónica.asincrónica. de forma secuencial. de forma secuencial.* Archivos .ktr* Archivos .ktr * Archivos .kjb * Archivos .kjb Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 20. Otros componentes de PDIOtros componentes de PDI Repositorio Repositorio* Los metadatos de las transformaciones y trabajos pueden ser* Los metadatos de las transformaciones y trabajos pueden seralmacenados en una base de datos.almacenados en una base de datos. Aplicaciones Aplicaciones Spoon: IDE para desarrollo. Spoon: IDE para desarrollo. Pan: Ejecución de transformaciones por línea de comando. Pan: Ejecución de transformaciones por línea de comando. Kitchen: Ejecución de trabajos por línea de comando. Kitchen: Ejecución de trabajos por línea de comando. Carte: Servidor para ejecutar de forma remota transformaciones y Carte: Servidor para ejecutar de forma remota transformaciones y trabajos. trabajos. Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 21. Arquitectura de PDIArquitectura de PDI (Bouman and Dongen ––Pentaho Solutions, 2009) (Bouman and Dongen Pentaho Solutions, 2009) Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 22. BibliografíaBibliografía Sitio de PDI: http://kettle.pentaho.com/ Sitio de PDI: http://kettle.pentaho.com/ Foros Pentaho: http://forums.pentaho.com/ Foros Pentaho: http://forums.pentaho.com/http://www.slideshare.net/jarleynobrega/aula-01tutorialpdihttp://www.slideshare.net/jarleynobrega/aula-01tutorialpdihttp://www.slideshare.net/jarleynobrega/aula-02tutorial-etl-com-pdihttp://www.slideshare.net/jarleynobrega/aula-02tutorial-etl-com-pdihttp://www.slideshare.net/jarleynobrega/aula-03tutorial-etl-com-pdihttp://www.slideshare.net/jarleynobrega/aula-03tutorial-etl-com-pdi Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 23. ¿Preguntas? ¿Preguntas?Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA