Présentation Talend Open Studio
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share

Présentation Talend Open Studio

  • 5,693 views
Uploaded on

Présentation du concept des ETL et quelques pas avec Talend

Présentation du concept des ETL et quelques pas avec Talend

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
5,693
On Slideshare
5,691
From Embeds
2
Number of Embeds
1

Actions

Shares
Downloads
288
Comments
0
Likes
1

Embeds 2

http://www.linkedin.com 2

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. INTÉGRATION DE DONNEESAVEC UN ETL OPEN SOURCE :OPEN STUDIO TOSPresenté par LASSEY horacio (horalass@gmail.com)
  • 2. Agenda C’est quoi un ETL Présentation de Talend Open Studio Avantages des solutions ETL Critères de sélection d’un ETL Démo : création de quelques jobs talend Conclusion
  • 3. C’est quoi un ETL ETL est l’acronyme de Extract Transform Load. Un ETL combine en elle seule trois fonctionnalités : extraction depuis une source de données , la transformation des données issues de l’étape précédente et enfin le load (chargement) dans une nouvelle source de données. On utilise les ETL pour les projets d’intégration de données (structure BI), de synchronisation de sources de données, migration de données etc…
  • 4. Presentation de Talend Open Studio TOS est un ETL de la société Talend C’est un projet open source C’est une application Eclipse plateforme Première version en 2005 C’est un ETL générateur de code (Java, Perl )
  • 5. Avantages des solutions ETL Dans un environnement décisionnel une partie des besoins ne survient qu’après la mise en production. Il faut pouvoir adapter rapidement son code ETL au nouveau des utilisateurs tout en gardant une bonne qualité du code Nécessité de transformer certains données opérationnelles Il faut pouvoir stocker les metadata des transformations La plupart des solutions ETL propose des exécutions en parallèle et du multi-threading ce qui les rend plus performants qu’un code simple
  • 6. Avantages des solutions ETL (suite) Accès à des sources de données très diversifiées et intégration des fonctions de filtre, agrégation etc. Gestion centralisée des metadata Utilisation d’interface graphique conviviale pour exécuter les tâches ETL
  • 7. Critère de sélection d’un ETL Type d’ETL : code generator, database-embedded, engine based Connecteur natif : SAP, salesforce, XML, etc Les temps d’exécution. Type de déclencheur ( temps réel , sur évènement , batch)
  • 8. Démo : création de quelques jobstalend Job step1 Présentation d’un job talend Utilisation des statistiques Utilisation des traces
  • 9. Démo : création de quelques jobstalend(suite) Job step2 Utilisation de tMap pour se connecter à des sources multiples de données Utilisation des métadonnées
  • 10. Démo : création de quelques jobstalend(suite) Job step3 Orchestration et gestion des flows
  • 11. Démo : création de quelques jobstalend(suite) Job step4 Gestion des erreurs et déploiement des jobs
  • 12. Conclusion Le choix d’un etl est très influencé par le projet que l’on fait et le contexte Mais pour faire son choix il faut tenir compte : Connecteurs natifs du temps de traitements du type d’etl ( générateur de code, moteur de transformation, etc) du type de déclencheur Il existe plusieurs ETL open source : Talend , Pentaho data Integration etc pour s’essayer et faire la preuve du concept
  • 13. Références www.talend.com The Data Warehouse ETL Toolkit, Ralph Kimball & Joe Caserta