Etl -

•Télécharger en tant que PPTX, PDF•

1 j'aime•888 vues

Khouloud Ben Cheikh

Présentation qui decrit le processus ETL

Formation

ETL
 L’ETL est un ensemble de fonctionnalités combinées dans un seul
outil ou solution, pour « extraire » des données d’un grand
nombre de bases de données, applications et systèmes, les
« transformer » en fonction des besoins et les « charger » dans
une autre base de données, un datamart ou un entrepôt de
données pour les analyser, ou bien les envoyer à un autre système
opérationnel dans le cadre d’un processus métier.

Staging
Source de données ETL Entrepôt de données
LeProcessus
DataWareHouse
DataMarts

Extraction  l'objectif de la phase d'extraction consiste à convertir les données
dans un format unique qui est approprié pour un traitement de
transformation.
 Accéder à la majorité des systèmes de stockage de données
(SGBD, ERP, fichiers à plat...) afin de récupérer les données
identifiées et sélectionnées. Prendre en compte la périodicité des
rafraîchissements.

Extraction
 Méthodes de Chargement :
Chargement initial (Full) et les chargements incrémentiels (Delta).
Full Load
Delta Load
Données Sources Données dans le staging

Staging
Source de
données ETL
Pull
Push
Push- Pull
Extraction
 Etudier les sources pour définir sa stratégie de chargement.

Extraction
Les questions à se poser selon la stratégie choisie pour définir les
caractéristiques de votre système :
 Quelle est la disponibilité de mes sources de données ?
 Comment y accéder ?
 Comment faire des chargements incrémentiels ?
 Quel est le temps d'un chargement incrémentiel moyen, ai-je la
possibilité de recharger des données dans le cas où mon processus de
chargement échoue ?
 Quelle politique vais-je utiliser dans le cas d'échec de chargement ?

Transformation Les questions à se poser avant de commencer cette étape :
 Quels sont les champs les plus sujets à erreurs ?
 Ai-je les moyens de corriger les erreurs automatiquement ?
 Comment permettre à un utilisateur de corriger les erreurs ?
 Quelle politique vais-je utiliser pour le traitement des erreurs
(fichier log, table dans BD) ?
 Comment montrer à l'utilisateur final que des données n'ont pas
été totalement chargées à cause d'erreurs ?

Transformation
Les données d’entrepôt doivent être :
Dé-normalisées Nettoyées
Contextualisées Chargées en DW

Load
 Etape Critique.
 Chargement des données dans l’entrepôt cible.
 Utiliser une requête Insert SQL ou bien une insertion en bloc
massif (bulk insert).
 Des questions qu'il faut se poser lors de cette étape :
 Que faire si un chargement échoue ?
 Ai-je les moyens de revenir à l'état avant le chargement ?
 Puis-je revenir dans le temps d'un chargement donné ?
 Comment valider mon chargement, comment détecter les erreurs ?

Métadonnées
 Données décrivant l’environnement décisionnel.
 Clé de réussite de tout projet décisionnel.
 Assurent l'interopérabilité entre les systèmes.

QuelOutil?
Taille de
l'entreprise
Taille de la
structure
informatique
Culture
d'entreprise
Maturité des
solutions
Les éléments à prendre en compte dans le choix de votre ETL :

 «Talend Open Studio»
 « PENTAHO DATA INTEGRATION »
 « Clover ETL »

 « SQL Server Integration Services (SSIS) »
 « SnapLogic »
 « Alteryx »
 « IBM Datastage »
 « SAP Data Services »
.

Contenu connexe

Tendances

Partie2BI-DW2019Aziz Darouichi

Business intelligenceAhmed Mesellem

Chp2 - Les Entrepôts de DonnéesLilia Sfaxi

DataWarehousenzuguem

Conception datawarehouseHassane Dkhissi

Business Intelligence : Transformer les données en information.arnaudm

Business Intelligences.poles

Projet décisionnelSiham JABRI

Tp Sql Server Integration Services 2008Abdelouahed Abdou

Resume de BIzeroweddou

Projet Bi - 3 - Alimentation des donnéesJean-Marc Dupont

BddwdmDemahom Didjoub

Reporting avec JasperServer & iReportLilia Sfaxi

Dba oracle-v1infcom

Data warehouseDimassi Khoulouda

Cours data warehousekhlifi z

Chp1 - Introduction à l'Informatique DécisionnelleLilia Sfaxi

Conception et Réalisation d'un Data WarehouseAbderrahmane Filali

Business intelligencemariam belkhiria

Introduction à la Business Intelligence Cynapsys It Hotspot

Tendances (20)

Partie2BI-DW2019

Business intelligence

Chp2 - Les Entrepôts de Données

DataWarehouse

Conception datawarehouse

Business Intelligence : Transformer les données en information.

Business Intelligence

Projet décisionnel

Tp Sql Server Integration Services 2008

Resume de BI

Projet Bi - 3 - Alimentation des données

Bddwdm

Reporting avec JasperServer & iReport

Dba oracle-v1

Data warehouse

Cours data warehouse

Chp1 - Introduction à l'Informatique Décisionnelle

Conception et Réalisation d'un Data Warehouse

Business intelligence

Introduction à la Business Intelligence

Similaire à Etl -

Emna borgi mabroukachraita-datawarehouseEmna Borgi

Talend, Leading Open Source DataIntegration plateform. Cedric CarboneCedric CARBONE

Migrer d'Excel vers power biSophie Marchand, M.Sc., CPA, CGA, MVP

Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataMicrosoft

Deep Dive Performance , le In-Memory dans SQL ServerMicrosoft

Automatisation d'import export salesforce data loader & Salesforce CLIFabien Huot

Bidirectional Encoder Representations from Transformersbahija babzine

Business intelligence pour startupsSébastien Derivaux

Mappingobjetrelationnel[1]linasafaa

Etat de l’art approche et outils BISaid Sadik

Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...CERTyou Formation

Alfresco Meetup - ETL Connector & TalendMarc Dutoo

L'Open Data avec OpenDataSoft - 2011OpenDataSoft

SEAL Loader pour SAP DMSSEAL Systems

analysez-des-donnees-avec-excel documen.pdfLeonLovensky

03 - Update an Existing Dataset (FRENCH)FENIX Workstation

Social Network Analysis Utilizing Big Data TechnologyImad ALILAT

Kit de survie en ProductionSpikeeLabs

Comment sauvegarder correctement vos donnéesEDB

Talei formation-talend-open-studio-data-integration-les-basesCERTyou Formation

Similaire à Etl - (20)

Emna borgi mabroukachraita-datawarehouse

Talend, Leading Open Source DataIntegration plateform. Cedric Carbone

Migrer d'Excel vers power bi

Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data

Deep Dive Performance , le In-Memory dans SQL Server

Automatisation d'import export salesforce data loader & Salesforce CLI

Bidirectional Encoder Representations from Transformers

Business intelligence pour startups

Mappingobjetrelationnel[1]

Etat de l’art approche et outils BI

Taleb formation-talend-open-studio-data-integration-les-bases-et-perfectionne...

Alfresco Meetup - ETL Connector & Talend

L'Open Data avec OpenDataSoft - 2011

SEAL Loader pour SAP DMS

analysez-des-donnees-avec-excel documen.pdf

03 - Update an Existing Dataset (FRENCH)

Social Network Analysis Utilizing Big Data Technology

Kit de survie en Production

Comment sauvegarder correctement vos données

Talei formation-talend-open-studio-data-integration-les-bases

Dernier

Cours SE Le système Linux : La ligne de commande bash - IG IPSETMedBechir

Bernard Réquichot.pptx Peintre françaisTxaruka

PIE-A2-P 5- Supports stagiaires.pptx.pdfRiDaHAziz

PIE-A2-P4-support stagiaires sept 22-validé.pdfRiDaHAziz

Cours SE Gestion des périphériques - IG IPSETMedBechir

Presentation de la plateforme Moodle - avril 2024Gilles Le Page

Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 37

SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSKennel

Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 37

LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...Faga1939

Principe de fonctionnement d'un moteur 4 tempsRajiAbdelghani

SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSKennel

Le Lean sur une ligne de production : Formation et mise en application directeXL Groupe

DO PALÁCIO À ASSEMBLEIA .Colégio Santa Teresinha

Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .Txaruka

SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSKennel

Zotero avancé - support de formation doctorants SHS 2024Alain Marois

SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSKennel

SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSKennel

Dernier (19)

Cours SE Le système Linux : La ligne de commande bash - IG IPSET

Bernard Réquichot.pptx Peintre français

PIE-A2-P 5- Supports stagiaires.pptx.pdf

PIE-A2-P4-support stagiaires sept 22-validé.pdf

Cours SE Gestion des périphériques - IG IPSET

Presentation de la plateforme Moodle - avril 2024

Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf

SciencesPo_Aix_InnovationPédagogique_Bilan.pdf

Bibdoc 2024 - Ecologie du livre et creation de badge.pdf

LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...

Principe de fonctionnement d'un moteur 4 temps

SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf

Le Lean sur une ligne de production : Formation et mise en application directe

DO PALÁCIO À ASSEMBLEIA .

Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .

SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf

Zotero avancé - support de formation doctorants SHS 2024

SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf

SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf

Etl -

1. Réalisépar: BenCheikhKhouloud ETL (Extract,TransformandLoad) Extraction,Transformation et Chargement

2. ETL Extraction/Transformation/Load Les outils ETL

3. ETL  L’ETL est un ensemble de fonctionnalités combinées dans un seul outil ou solution, pour « extraire » des données d’un grand nombre de bases de données, applications et systèmes, les « transformer » en fonction des besoins et les « charger » dans une autre base de données, un datamart ou un entrepôt de données pour les analyser, ou bien les envoyer à un autre système opérationnel dans le cadre d’un processus métier.

4. Staging Source de données ETL Entrepôt de données LeProcessus DataWareHouse DataMarts

5. Extraction  l'objectif de la phase d'extraction consiste à convertir les données dans un format unique qui est approprié pour un traitement de transformation.  Accéder à la majorité des systèmes de stockage de données (SGBD, ERP, fichiers à plat...) afin de récupérer les données identifiées et sélectionnées. Prendre en compte la périodicité des rafraîchissements.

6. Extraction  Méthodes de Chargement : Chargement initial (Full) et les chargements incrémentiels (Delta). Full Load Delta Load Données Sources Données dans le staging

7. Staging Source de données ETL Pull Push Push- Pull Extraction  Etudier les sources pour définir sa stratégie de chargement.

8. Extraction Les questions à se poser selon la stratégie choisie pour définir les caractéristiques de votre système :  Quelle est la disponibilité de mes sources de données ?  Comment y accéder ?  Comment faire des chargements incrémentiels ?  Quel est le temps d'un chargement incrémentiel moyen, ai-je la possibilité de recharger des données dans le cas où mon processus de chargement échoue ?  Quelle politique vais-je utiliser dans le cas d'échec de chargement ?

9. Transformation Les questions à se poser avant de commencer cette étape :  Quels sont les champs les plus sujets à erreurs ?  Ai-je les moyens de corriger les erreurs automatiquement ?  Comment permettre à un utilisateur de corriger les erreurs ?  Quelle politique vais-je utiliser pour le traitement des erreurs (fichier log, table dans BD) ?  Comment montrer à l'utilisateur final que des données n'ont pas été totalement chargées à cause d'erreurs ?

10. Transformation Les données d’entrepôt doivent être : Dé-normalisées Nettoyées Contextualisées Chargées en DW

11. Load  Etape Critique.  Chargement des données dans l’entrepôt cible.  Utiliser une requête Insert SQL ou bien une insertion en bloc massif (bulk insert).  Des questions qu'il faut se poser lors de cette étape :  Que faire si un chargement échoue ?  Ai-je les moyens de revenir à l'état avant le chargement ?  Puis-je revenir dans le temps d'un chargement donné ?  Comment valider mon chargement, comment détecter les erreurs ?

12. Métadonnées  Données décrivant l’environnement décisionnel.  Clé de réussite de tout projet décisionnel.  Assurent l'interopérabilité entre les systèmes.

13. QuelOutil? Taille de l'entreprise Taille de la structure informatique Culture d'entreprise Maturité des solutions Les éléments à prendre en compte dans le choix de votre ETL :

14. Les outils ETL Open Source Payants

15.  «Talend Open Studio»  « PENTAHO DATA INTEGRATION »  « Clover ETL »

16.  « SQL Server Integration Services (SSIS) »  « SnapLogic »  « Alteryx »  « IBM Datastage »  « SAP Data Services » .

17. Open source ou payant ?

18. Merci pour votre Attention

Notes de l'éditeur

Dé-normalisées : dans un DW (Data Warehouse), avoir des doublons n'est pas important, avoir un schéma en troisième forme normale est même déconseillé. Il faut que les données apparaissent là où elles doivent apparaître. Nettoyées : dans un système de production, les utilisateurs entrent les données. Les risques d'erreurs sont là : entrer la rue au lieu du pays, écrire Canoda au lieu de Canada. Ces erreurs ont des répercutions directes sur les analyses (les commandes avec Canoda comme pays ne feront pas partie des commandes faites au Canada). Il faut pouvoir détecter et corriger ces erreurs. Contextualisées : imaginez un système de production où les informations sur l'activité du personnel sont enregistrées, et un système de RH ou les informations personnelles, comptables des employés sont stockées. Un entrepôt de données possède une vision universelle, un employé est un employé, et il n'y aura qu'une seule dimension "Employé" avec toutes les informations le concernant. Chargées en DW : c'est l'étape la plus complexe, il s'agit ici d'ajouter les nouvelles lignes, voir si des lignes ont été modifiées et faire une gestion d'historique, voir si des lignes ont été supprimées et le mentionner dans l'entrepôt, tout en faisant attention de ne pas charger des données en double.
Ces métadonnées fournissent un contexte métier pour les actifs informatiques et ajoutent une signification métier aux artefacts créés et gérés par d'autres applications informatiques. Elles incluent les termes de glossaire, les informations de gestion et les exemples.
Taille de l'entreprise : j'entends par là taille des structures. S'il s'agit d'une multinationale avec des milliers de succursales à travers le monde, on ira plus pour une solution complète et, en général, très coûteuse. Si on est une PME, on optera plutôt pour des solutions payantes (comme Microsoft Integration Services) assurant un certain niveau de confort sans impliquer des mois de développement. Taille de la structure informatique : une entreprise avec une grosse structure informatique pourra se permettre d'opter pour une solution Open Source et la personnaliser selon les besoins de l'entreprise. Une PME ne pourra sûrement pas faire cela. Culture d'entreprise : évidement, si une entreprise à une culture de l'Open Source très prononcée, l'application d'une solution payante risquera fortement de subir un phénomène de rejet. Maturité des solutions : il existe des solutions bien rodées, qui fonctionnent bien et qui bénéficient d'un bon retour d'expérience, c'est en général les plus chères (Business Objects, Oracle, SAP). Il existe d'autres solutions, moins matures, bénéficiant d'un " effet de mode " et qui semble offrir de très bonnes performances (Microsoft). Enfin, il existe des solutions Open Source qui, de part leur jeunesse, n'offrent pas autant de flexibilité et de facilité de mise en œuvre que les solutions précédemment citées. Il faudra compter avec le temps pour que ces solutions émergent et arrivent à un niveau de maturité acceptable…
J’ai trouvé cette réponse dans un forum au sujet de “ Talend vs. SSIS: A Simple Performance Comparison » qui explique la difference entre SSIS et Talend

Etl -

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Etl -

Similaire à Etl - (20)

Dernier

Dernier (19)

Etl -

Notes de l'éditeur