Pentaho PDI
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Pentaho PDI

on

  • 3,777 views

Presentación sobre Pentaho Data Integration

Presentación sobre Pentaho Data Integration

Statistics

Views

Total Views
3,777
Views on SlideShare
3,748
Embed Views
29

Actions

Likes
0
Downloads
185
Comments
0

6 Embeds 29

http://miriamrd.blogspot.com.ar 13
http://miriamrd.blogspot.com 11
https://www.linkedin.com 2
http://www.miriamrd.blogspot.com.ar 1
http://miriamrd.blogspot.com.es 1
http://www.linkedin.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Pentaho PDI Presentation Transcript

  • 1. Pentaho Data Integration (Kettle) Ing. Marcos Pierri Ing. Marcos Pierri SIU-Datawarehouse SIU-Datawarehouse dw@siu.edu.ar dw@siu.edu.arJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 2.   Proyecto open source adquirido Proyecto open source adquirido por Pentaho en 2006 por Pentaho en 2006   Desarrollado por Matt Casters Desarrollado por Matt Casters   Anteriormente conocido como Kettle Anteriormente conocido como Kettle KDE Extraction, KDE Extraction, Transportation, Transportation, Transformation and Transformation and Loading Environment Loading EnvironmentJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 3. Usos comunesUsos comunes   Carga de datawarehouses y datamarts Carga de datawarehouses y datamarts   Integración de datos Integración de datos   Limpieza de datos (Data cleansing) Limpieza de datos (Data cleansing)   Migración y depuración de datos Migración y depuración de datos   Exportación de datos Exportación de datos   ... ...Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 4. Cargando datos en un DW o datamart Cargando datos en un DW o datamart Extracción Extracción Proceso de Proceso de Transformación Transformación ETL ETL Carga CargaJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 5. validación y descarte validación y descarte de datos de diferentes de datos de diferentes Extracción Extracción de datos de acuerdo de datos de acuerdo fuentes y formatos fuentes y formatos a reglas y patrones a reglas y patrones de datos de acuerdo de datos de acuerdo Conversión de tipos de Conversión de tipos de Transformación Transformación con requisitos con requisitos datos, filtrado de datos, datos, filtrado de datos, técnicos y del negocio técnicos y del negocio sumarizaciones sumarizaciones de datos de datos Reescritura de datos Reescritura de datos Carga Carga transformados en transformados en y adición de y adición de una base de datos una base de datos nueva información nueva informaciónJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 6. Carga Carga Extracción Extracción Transformación TransformaciónJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 7. Actividades de Extracción Actividades de Extracción   Captura de datos Captura de datos * Lectura a partir de diversas fuentes. * Lectura a partir de diversas fuentes. * Identificación de cambios desde la última extracción. * Identificación de cambios desde la última extracción.   Staging Staging * Almacenamiento temporario de datos. * Almacenamiento temporario de datos.Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 8. Fuentes de entrada de datos Fuentes de entrada de datos Acces Acces Excel Excel Tabla BD Tabla BD Xml Xml Txt Txt RSS RSSJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 9. Actividades de Transformación Actividades de Transformación   Validación de datos Validación de datos * Verificar que los datos sean correctos y precisos. * Verificar que los datos sean correctos y precisos. * Filtrado de datos inválidos. * Filtrado de datos inválidos.   Limpieza de datos Limpieza de datos * Corrección de datos inválidos. * Corrección de datos inválidos.   Agregación Agregación   Generación y gestión de claves Generación y gestión de claves * SK – Claves subrogadas. * SK – Claves subrogadas.Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 10. Actividades de Carga Actividades de Carga -- Carga de tablas de hechos Carga de tablas de hechos * Adicionar registros a la tabla de hechos. * Adicionar registros a la tabla de hechos. -- Carga y mantenimiento de las tablas de dimensiones Carga y mantenimiento de las tablas de dimensiones * Adicionar y actualizar los registros de las tablas de * Adicionar y actualizar los registros de las tablas de Dimensiones. Dimensiones.Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 11. Instalando PDI Instalando PDI   Pre-requisitos Pre-requisitos * JRE (ou JDK) 5.x o superior. * JRE (ou JDK) 5.x o superior.   Descarga Descarga * http://sourceforge.net/projects/pentaho/files/ * http://sourceforge.net/projects/pentaho/files/ * Carpeta “Data Integration” * Carpeta “Data Integration” * 4.1.0 – 106.5 MB * 4.1.0 – 106.5 MBJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 12. Después de descomprimir el archivo Después de descomprimir el archivo * Ejecutar spoon.sh (Linux) o spoon.bat (Windows) * Ejecutar spoon.sh (Linux) o spoon.bat (Windows)Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 13. Pantalla de Bienvenida Pantalla de BienvenidaJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 14. - Opciones de configuración del área de- Opciones de configuración del área detrabajo de Spoontrabajo de Spoon Solapa “General” Solapa “General”* Show tips at startup?* Show tips at startup?* Show welcome page at startup?* Show welcome page at startup?* ...* ... Solapa “Look & Feel” Solapa “Look & Feel”* Preferred Language* Preferred Language* ...* ... - Los cambios serán aplicados al reiniciar Spoon - Los cambios serán aplicados al reiniciar Spoon Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 15. Principales Componentes de PDIPrincipales Componentes de PDI PDI trabaja con dos tipos básicos de componentes: PDI trabaja con dos tipos básicos de componentes: * Transformaciones * Transformaciones * Trabajos (Jobs) * Trabajos (Jobs) Características de las transformaciones y trabajos Características de las transformaciones y trabajos * Define el flujo del proceso de ETL * Define el flujo del proceso de ETL * Contiene los metadatos del proceso de ETL * Contiene los metadatos del proceso de ETL -- Descripción de los datos. Descripción de los datos. -- Fuentes de entrada y salida. Fuentes de entrada y salida. -- Scheduling. Scheduling. -- Scripting. Scripting.Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 16. ¿Cómo se ejecutan las transformaciones y trabajos?¿Cómo se ejecutan las transformaciones y trabajos?* Una transformación o trabajo consiste en una colección de pasos* Una transformación o trabajo consiste en una colección de pasos(steps) interconectados(steps) interconectados Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 17. Conexiones entre los pasos de las transformacionesConexiones entre los pasos de las transformacionesy trabajosy trabajos* Saltos (Hops): Representa un flujo de registros entre dos pasos.* Saltos (Hops): Representa un flujo de registros entre dos pasos. Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 18. - Steps, Hops y flujo de registros- Steps, Hops y flujo de registros (Bouman and Dongen – Pentaho Solutions, 2009) (Bouman and Dongen – Pentaho Solutions, 2009)Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 19. TransformacionesTransformaciones Trabajos (Jobs) Trabajos (Jobs)* Consiste en una colección de Steps* Consiste en una colección de Steps * Consiste en una colección de * Consiste en una colección dede transformación.de transformación. transformaciones o de Steps de transformaciones o de Steps de trabajos. trabajos.* Cada Step denota una operación* Cada Step denota una operacióndel proceso de ETL.del proceso de ETL. * Cada Step del trabajo denota una * Cada Step del trabajo denota una tarea del proceso de ETL. tarea del proceso de ETL.* La salida de un Step produce un* La salida de un Step produce unconjunto de registros.conjunto de registros. * La salida de cada Step del trabajo * La salida de cada Step del trabajo produce un Status de ejecución. produce un Status de ejecución.* Los Steps de la transformación se* Los Steps de la transformación seejecutan de forma simultánea yejecutan de forma simultánea y * Los Steps del trabajo se ejecutan * Los Steps del trabajo se ejecutanasincrónica.asincrónica. de forma secuencial. de forma secuencial.* Archivos .ktr* Archivos .ktr * Archivos .kjb * Archivos .kjb Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 20. Otros componentes de PDIOtros componentes de PDI Repositorio Repositorio* Los metadatos de las transformaciones y trabajos pueden ser* Los metadatos de las transformaciones y trabajos pueden seralmacenados en una base de datos.almacenados en una base de datos. Aplicaciones Aplicaciones Spoon: IDE para desarrollo. Spoon: IDE para desarrollo. Pan: Ejecución de transformaciones por línea de comando. Pan: Ejecución de transformaciones por línea de comando. Kitchen: Ejecución de trabajos por línea de comando. Kitchen: Ejecución de trabajos por línea de comando. Carte: Servidor para ejecutar de forma remota transformaciones y Carte: Servidor para ejecutar de forma remota transformaciones y trabajos. trabajos. Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 21. Arquitectura de PDIArquitectura de PDI (Bouman and Dongen ––Pentaho Solutions, 2009) (Bouman and Dongen Pentaho Solutions, 2009) Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 22. BibliografíaBibliografía Sitio de PDI: http://kettle.pentaho.com/ Sitio de PDI: http://kettle.pentaho.com/ Foros Pentaho: http://forums.pentaho.com/ Foros Pentaho: http://forums.pentaho.com/http://www.slideshare.net/jarleynobrega/aula-01tutorialpdihttp://www.slideshare.net/jarleynobrega/aula-01tutorialpdihttp://www.slideshare.net/jarleynobrega/aula-02tutorial-etl-com-pdihttp://www.slideshare.net/jarleynobrega/aula-02tutorial-etl-com-pdihttp://www.slideshare.net/jarleynobrega/aula-03tutorial-etl-com-pdihttp://www.slideshare.net/jarleynobrega/aula-03tutorial-etl-com-pdi Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA
  • 23. ¿Preguntas? ¿Preguntas?Jornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABAJornadas de trabajo en Pentaho para Técnicos de UUNN – 2 y 3 de junio de 2011 – CABA