Your SlideShare is downloading. ×
Mémoire de fin d’études   Pour l’obtention du diplôme d’Ingénieur d’Etat en Informatique              Option : Systèmes d’...
Remerciements        Nos remerciements vont tout spécialement à nos familles, qui ont sus nous supporter etencourager tout...
DédicacesJe dédie ce modeste travail à :      M es parents, qui n’ont jamais cessé de m’encourager et me soutenir,      M ...
DédicacesA:           M es parents, pour leur soutient indéniable et leur aide précieuse     « Pourrais-je jamais vous dir...
SommaireRésumé :………………………………………………………………………………………..IAbréviations :………………………………………………………………………………….IIListe des tableaux ………...
IV.1.2        Approche « Source de données » ...................................................................... 35    ...
5.     Rédaction et validation du recueil récapitulatif des besoins ..................................... 68   I.2 Problèm...
III.2 Présentation de la partie supervision ...................................................................... 133IV. ...
Résumé :Le groupe SONELGAZ, premier opérateur énergétique en Algérie, assure plusieurs missionsdans le domaine de l’énergi...
Abréviations :BI : Business Intelligence.BT : Basse Tension.BP : Basse Pression.CTI : Centre de Traitement Informatique.DA...
PDG: Président Directeur General.PK : Primary Key.ROLAP : Relational On Line Analytical Process.SD : Socièté de Distributi...
Liste des tableaux                                     Partie I : Synthèse Bibliographique.Tableau I.1 : Tableau comparati...
Tableau II.26 : Tableau descriptif des agrégats potentiels du modèle « Suivi abonnés » ....... 89Tableau II.27 : Tableau d...
Liste des figures Figure I.1 :       Le décisionnel au sein du système d’information ........................................
Figure II.10 : La place de l’étape de définition des besoins dans un projet DataWarehouse………………………………………………………………………………….5...
Introduction générale                        8
Contexte général        C’est dans un environnement fortement complexe et hautement concurrentielqu’évolue la majeure part...
1. Problématique       Le groupe SONELGAZ est l’opérateur historique et leader du domaine énergétique enAlgérie, notamment...
problèmes dû au fait qu’il interroge directement la base de données en production. En   effet le lancement de la productio...
Planification et conduite du projet       L’initiation de tout projet nécessite une phase de planification. Celle         ...
Dans la deuxième partie, nous présentons le travail réalisé au sein du GroupeSONELGAZ à travers les six suivants chapitres...
Partie I : Synthèse bibliographique« Un entrepôt de données ne sachète pas, il se construit. »Bill Inmon                  ...
I.    Introduction    Toutes les entreprises du monde disposent d’une masse de données plus ou moinsconsidérable. Ces info...
Les origines des SID remontent au début de l’informatique et des systèmes d’informationqui ont, tous deux, connu une grand...
I.1.2. Les différentes composantes du décisionnel                            s         En relation étroite avec les nouvel...
I.3. Décisionnel vs transactionnel    Le tableau suivant résume de façon non exhaustive les différences qu’il peut y avoir...
II.    Le Data Warehouse   II.1       Qu’est ce qu’un Data Warehouse   Bill Inmon définit le Data Warehouse, dans son livr...
II.2       Historique des Data Warehouse    L’origine du concept « Data Warehouse » D.W (entrepôt de données en français) ...
II.3       Structure des données d’un Data Warehouse          Le Data Warehouse a une structure bien définie, selon différ...
Meta données : ce sont les informations relatives à la structure des données, les méthodesd’agrégation et le lien entre le...
1. Data Mart indépendant       Les Data Mart sont des versions miniaturisées du Data Warehouse au niveaudépartemental, ali...
2. Data Mart interconnectés        Les Data Mart sont construi autour de sujets, interconnectés grâce aux tables des      ...
II.5       Architecture d’un Data Warehouse    Après avoir exposé et défini chacun des éléments constituant l’environnemen...
III.   Modélisation des données de l’entrepôt   III.1         La modélisation dimensionnelle et ses concepts        Les Da...
Figure I.9 :       Un modèle dimensionnel typique [Kimball, 1996].   III.1.1 Concept de fait        Une table de faits est...
III.1.3 Comparatif entre les tables de faits et les tables de dimensions       Le tableau suivant récapitule les différenc...
III.3         Le concept OLAP    III.3.1 Généralités       Le terme OLAP (On-Line Analytical Processing) désigne une class...
Data Warehouse                    Moteur MOLAP                   Aide à la décision      Données                        Tr...
III.2.2.3 Les systèmes à architecture HOLAP        Les systèmes HOLAP « Hybride On-line Analytical Processing » sont une s...
Figure I                                   I.12 :     Exemple de Slicing.Le Dicing, quant à lui, peut être vu comme étant ...
Ces opérations ne sont pas aussi faciles à implémenter car basées sur la notion d’unebonne hiérarchisation des attributs d...
IV.          Démarche de Construction d’un Data Warehouse       Plusieurs chercheurs ou équipes de recherche ont essayé de...
Avantages                                     InconvénientsAucun risque de concevoir une solution Pas de prise en compte d...
Inmon considère que l’utilisateur ne peut jamais déterminer ses besoins dès le départ,« Donnez moi ce que je vous demande,...
Cette étape aboutit à l’établissement du modèle dimensionnel validé du DataWarehouse. Ce modèle dimensionnel sera transfor...
• Comparaison avec le dernier chargement : le processus d’extraction sauvegarde descopies des chargements antérieurs, de m...
Aussi, le processus d’alimentation doit répondre à certaines exigences illustrées par lafigure suivante :                 ...
IV.2.3 Les outils E.T.L.    Les outils E.T.L, en français E.T.C « Extraction-Transformation-Chargement » [Kimball,2005], s...
c. Analyse dimensionnelle des données:        L’analyse dimensionnelle est sans doute celle qui exploite et fait ressortir...
IV.4        Maintenance et expansion      La mise en service du Data Warehouse ne signifie pas la fin du projet, car un pr...
V.     Conclusion       Le concept « Data Warehouse » est apparu comme une réponse à des besoinsgrandissants dans le domai...
Partie II : Cas pratique « filiales de distribution SONELGAZ »                                         44
Chapitre I :   Présentation   de   l’organisme               d’accueil.                                             45
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Upcoming SlideShare
Loading in...5
×

Conception et Réalisation d'un Data Warehouse

9,083

Published on

Published in: Technology

Transcript of "Conception et Réalisation d'un Data Warehouse"

  1. 1. Mémoire de fin d’études Pour l’obtention du diplôme d’Ingénieur d’Etat en Informatique Option : Systèmes d’information ThèmeConception et réalisation d’un Data Warehouse pour la mise en place d’un système décisionnel Document de base Réalisé par Encadré par - FILALI ABDERRAHMANE - MERABET SOUAD - KEDJNANE SOFIANE - MEDJAOUI NADJI Promotion : 2009/2010
  2. 2. Remerciements Nos remerciements vont tout spécialement à nos familles, qui ont sus nous supporter etencourager tout au long de notre vie, ainsi que pour leur aide inestimable, leur patience etleur soutien indéfectible. Nous tenons aussi, à remercier tout les enseignants qui ont contribué de près ou de loinà notre formation. Nous remercions Mme Souad Merbet et M. Nadji Medjaoui pour avoir assurél’encadrement de ce projet, qui n’a pas toujours été de tout repos. On remercie monsieurMedjaoui pour nos séances de travail agréables et fructueuses, ses remarques pertinentes,mais aussi pour son écoute et son discours bienveillants. Nous remercions Mme Merabet pour la confiance quelle nous a accordé et de nousavoir donné l’opportunité de travailler sur un projet d’une tel envergure. Nous remercions Mme Ait Ali Yahia pour ces critiques constructives qui nous ontpermis d’améliorer ce mémoire. Nous nous devons de mentionner la précieuse et totale collaboration que nous avonsreçu au sein de ELIT, de part les moyens mis à notre disposition et l’aide et le support apportépar l’ensemble des employés et des cadres. On remercie vivement Mesdames et Messieurs les membres du jury d’avoir accepterd’évaluer ce travail. Pour finir, et afin de n’oublier personne (amis, membre de la famille et tous ceux quinous sont chers) nous utiliserons la formule : « Merci à… ». ^xw}ÇtÇx 9 Y|ÄtÄ|
  3. 3. DédicacesJe dédie ce modeste travail à : M es parents, qui n’ont jamais cessé de m’encourager et me soutenir, M on frère : M oham med, et m es sœurs :A mina et Soum ia M on binôm e et ami Sofiane et sa famille, M es amis : Amine, M ouhata, M oham med, Lotfi … Tous les m embres de ma famille, Ceux qui me sont chers, M on cousin : Samir, puisse dieu l’accueillir dans son vaste paradis. TuwxÜÜt{ÅtÇx
  4. 4. DédicacesA: M es parents, pour leur soutient indéniable et leur aide précieuse « Pourrais-je jamais vous dire tous mon am our», M a grand-mère, pour sa patience et pour avoir su me supporter, M a sœur Linda, et mes frères Tareq et Yacine, pour leurs encouragements et leur amour, Tous les m embres de la famille, pour l’intérêt qu’ils m’ont montré, M on binôme (et ami) Abderrahmane « H amza » et toute sa famille, pour ce qu’ils m’ont apporté, M es amis, pour tous ce qu’on a partagé ensemble, Toutes les personnes proches que je n’ai pas citées Je dédie ce travail. fÉy|tÇx
  5. 5. SommaireRésumé :………………………………………………………………………………………..IAbréviations :………………………………………………………………………………….IIListe des tableaux …………………………………………………………………………….IVListe des figures ……………………………………………………………………………...VIIntroduction générale ................................................................................................................. 9 1. Problématique .............................................................................................................. 10 2. Objectifs du projet ........................................................................................................ 11 Partie I: Synthèse Bibliographique.I. Introduction ...................................................................................................................... 15 I.1. Les systèmes décisionnels ........................................................................................ 15 I.1.1. La place du décisionnel dans l’entreprise .............................................................. 16 I.1.2. Les différents composantes du décisionnel ............................................................ 17 I.2. Décisionnel vs transactionnel ................................................................................... 18II. Le Data Warehouse .......................................................................................................... 19 II.1 Qu’est ce qu’un Data Warehouse ............................................................................. 19 II.2 Historique des Data Warehouse ............................................................................... 20 II.3 Structure des données d’un Data Warehouse ........................................................... 21 II.4 Les éléments d’un Data Warehouse ......................................................................... 22 II.5 Architecture d’un Data Warehouse .......................................................................... 25III. Modélisation des données de l’entrepôt ........................................................................... 26 III.1 La modélisation dimensionnelle et ses concepts ...................................................... 26 III.1.1 Concept de fait .................................................................................................. 27 III.1.2 Concept de dimension ....................................................................................... 27 III.1.3 Comparatif entre les tables de faits et les tables de dimensions ........................ 28 III.2 Différents modèles de la modélisation dimensionnelle ............................................. 28 III.3 Le concept OLAP ..................................................................................................... 29 III.3.1 Généralités ......................................................................................................... 29 III.3.2 Architectures des serveurs OLAP ..................................................................... 29 III.4 La navigation dans les données ................................................................................ 31 III.4.1 Slice & Dice ...................................................................................................... 31 III.4.2 Drill-down & Roll-up ......................................................................................... 32IV. Démarche de Construction d’un Data Warehouse ........................................................... 34 IV.1 Modélisation et conception du Data Warehouse ...................................................... 34 IV.1.1 Approche « Besoins d’analyse » ....................................................................... 34
  6. 6. IV.1.2 Approche « Source de données » ...................................................................... 35 IV.1.3 Approche mixte ................................................................................................. 36 IV.2 Alimentation du Data Warehouse.............................................................................. 37 IV.2.1 Les phases de l’alimentation « E.T.L. » ............................................................ 37 IV.2.2 Politiques de l’alimentation ............................................................................... 38 IV.2.3 Les outils E.T.L. ................................................................................................ 40 IV.3 Mise en œuvre du Data Warehouse .......................................................................... 40 IV.4 Maintenance et expansion ........................................................................................ 42V. Conclusion ....................................................................................................................... 43 PartieII: Conception de la solution.Chapitre 1: Présentation de lorganisme daccueil.I. Présentation de SONELGAZ ............................................................................................ 46 I.1 Historique ...................................................................................................................... 46 I.1.1 Organisation du groupe SONELGAZ ................................................................... 47 I.1.2 Le groupe SONELGAZ en chiffres ...................................................................... 49 I.2 Le métier de la distribution .......................................................................................... 50 I.2.1 Organisation des sociétés de distribution ............................................................... 51 I.2.2 La clientèle de la distribution ................................................................................ 52 I.3 L’informatique au sein du groupe SONELGAZ .......................................................... 53 I.3.1 Présentation de la filiale « ELIT » ........................................................................ 53II. Conclusion ....................................................................................................................... 56Chapitre 2: Léxistant décisionnel.I. Introduction ...................................................................................................................... 58II. Etat du décisionnel au sein du groupe............................................................................... 58 II.1 Niveau Groupe .......................................................................................................... 58 II.2 Niveau Société de Distribution ................................................................................. 60 II.3 Niveau Direction de Distribution ............................................................................. 61III. Conclusion ....................................................................................................................... 62Chapitre 3:Etude des besoins.I. Introduction ....................................................................................................................... 64 I.1 Description de la démarche détude des besoins ........................................................... 65 1. Étude préliminaire des systèmes sources et interviews sommaires avec les DBA.... 65 2. Détection des postes susceptibles dêtre porteur dinformations utiles ...................... 65 3. Planification, préparation et conduite des interviews ................................................ 66 4. Autres moyens utilisés pour la détection des besoins ............................................... 67
  7. 7. 5. Rédaction et validation du recueil récapitulatif des besoins ..................................... 68 I.2 Problèmes et obstacles rencontrés ................................................................................ 69II. Conclusion ....................................................................................................................... 70Chapitre 4: Conception de la zone « entreposage des données ».I. Introduction ...................................................................................................................... 73II. Processus de la modélisation dimensionnelle .................................................................. 73 II.1 Volet « vente » ......................................................................................................... 74 II.2 Volet « recouvrement » ............................................................................................ 89 II.3 Volet « suivi des affaires » ........................................................................................ 93 II.4 Volet « Suivi des abonnés » ..................................................................................... 99III. Conclusion ..................................................................................................................... 103Chapitre 5: Conception de la zone « Alimentation ».I. Introduction .................................................................................................................... 105II. Etude et planification ..................................................................................................... 105 II.1 Les sources de données ........................................................................................... 105 II.2 Détection des emplacements des données sources ................................................. 106 II.3 Définition de la périodicité de chargement .............................................................. 106III. Architecture du processus d’alimentation ...................................................................... 107IV. Processus de chargement ............................................................................................... 109 IV.1 Processus de chargement de dimension .................................................................. 110 IV.2 Processus de chargement des table de fait .............................................................. 112 IV.3 Processus de chargement particulier ....................................................................... 114 IV.3.1 Processus de chargement de la dimension « temps » ...................................... 114 IV.3.2 Processus de construction d’agrégats .............................................................. 114V. Conclusion ..................................................................................................................... 115Chapitre 6: Conception des cubes dimensionnels.I. Définition des niveaux et des hiérarchies ...................................................................... 117II. La liste des cubes ........................................................................................................... 121III. Présentation des cubes dimensionnels ........................................................................... 123IV. Conclusion ..................................................................................................................... 123Chapitre 7: Conception des Meta Data.I. Les « Meta Data » ou « méta données » de l’entrepôt ................................................... 129II. Rôle des méta données ................................................................................................... 129III. Exploitation des métas données ..................................................................................... 133 III.1 Présentation de la partie navigation ....................................................................... 133
  8. 8. III.2 Présentation de la partie supervision ...................................................................... 133IV. Conclusion ..................................................................................................................... 133 Partie III: Implémentation et déploiement.I. Introduction .................................................................................................................... 135II. Implémentation .............................................................................................................. 135 II.1 Périmètre technique et fonctionnel ......................................................................... 135 II.1.1 Matériel ............................................................................................................... 135 II.1.2 Systèmes d’exploitation ...................................................................................... 135 II.2 Architecture technique de la solution ..................................................................... 136 II.3 Zone de stockage .................................................................................................... 136 II.4 Zone d’alimentation de l’entrepôt ........................................................................... 137 II.5 Zone de restitution .................................................................................................. 137III. Déploiement ................................................................................................................... 139 III.1 Déploiement de la zone d’alimentation .................................................................. 139 III.2 Déploiement de la zone de restitution .................................................................... 140IV. Conclusion …………………………………………..……………………………….141Conclusion générale et perspectives ………………...……………………………………142Bibliographie ........................................................................................................................ 145
  9. 9. Résumé :Le groupe SONELGAZ, premier opérateur énergétique en Algérie, assure plusieurs missionsdans le domaine de l’énergie. Ces dernières, allant de la gestion du réseau électrique et gazierà la distribution et commercialisation de l’électricité et du gaz au profit tant des professionnelsque des particuliers, font de SONELGAZ un acteur incontournable de l’économie nationale.Le groupe SONELGAZ rencontre, dans le cadre de son activité de distribution, quelquesproblèmes dans sa politique de Reporting clientèle. Ces difficultés sont liées notamment à lalenteur et au coût de la procédure, du fait du nombre important d’intermédiaires et/ouintervenants. Ces difficultés ont rendu tout effort d’analyse vain ; et c’est pourquoi lesdirigeants du groupe aspirent à la mise en place d’un système qui procure aux décideurs lesinformations nécessaires et fiables, les aidant ainsi à pendre dans les meilleurs délais lesdécisions les plus appropriées. Dans ce contexte, et afin de répondre à ces attentesgrandissantes le groupe a sollicité sa filiale spécialisée dans les systèmes d’information et lesnouvelles technologies « Elit ». Le But recherché étant d’aller vers la mise en place d’un système s’inscrivant dans le cadredu Système de Gestion de la Clientèle « S.G.C ». Ce système sera construit autour d’unebase de données dédiée totalement aux décisionnel un « Data Warehouse » et répondant àtout les besoins d’analyse du groupe dans sa fonction de distribution. Ce présent projet a doncpour vocation première de réaliser une telle base de données.Mots clés : Data Warehouse « Entrepôt de données », Décisionnel, Business Intelligence« B.I », intégration de données, solutions « BI » Open Source. I
  10. 10. Abréviations :BI : Business Intelligence.BT : Basse Tension.BP : Basse Pression.CTI : Centre de Traitement Informatique.DAP : Direction Analyses et Prévision.DAR : Direction Affaires De Régulation.DBA : Data Base Administrator.DCF : Direction Comptabilité et Finance.DCM: Direction Commercial Et Marketing.DD : Direction de Distribution.DED : Département Etudes et Développement.DGDS : Direction Générale du Développement et de la Stratégie.DIM : Dimension.DR : direction régionale(DD).DRD : Direction de Distribution Régionale.DW : Data Warehouse (Entrepôt de données).ED : Etude et développent.EDW : Entreprise Data Warehouse.EGA : Electricité et Gaz d’Algérie.ELIT : EL-djazaïr Information Technology.EPIC : Etablissement Publique à caractère Industriel et Commercial.ETL : Extract, Transform and Load (ETC).FK: Foreign Key.FTP : File Transfer Protocol.HOLAP: Hybrid On Line Analytical Process.HP : Haute Pression.HT : Haute Tension.MOLAP: Multidimensional On Line Analytical Process.MP: Moyenne Pression.MT : Moyenne Tension.OLAP : On Line Analytical Process.OLTP: On Line Transactional Process. II
  11. 11. PDG: Président Directeur General.PK : Primary Key.ROLAP : Relational On Line Analytical Process.SD : Socièté de Distribution.SGC : Système de Gestion de la Clientèle.SI : Systèmes d’Information.SID: Systèmes d’Information Décisionnels.SID : Systèmes d’information de la distribution.SIAD : Systèmes d’Information d’Aide à la DécisionSGBD : Système de Gestion de Base de Données.SMTP : Server Mail Transfer Protocol.SONELGAZ : Société Nationale de l’Electricité et du GAZ.SPA : Société Par Action.SQL : Structured Query Language. III
  12. 12. Liste des tableaux Partie I : Synthèse Bibliographique.Tableau I.1 : Tableau comparatif entre les systèmes transactionnels et les systèmesdécisionnels... ............................................................................................................................. 6Tableau I.2 : Tableau comparatif entre les tables de faits et les tables de dimensions............ 16Tableau I.3 : Avantages et inconvénients de l’approche « Besoins d’analyse » ..................... 23Tableau I.4 : Avantages et inconvénients de l’approche « Sources de données »................... 24 Partie II: Conception de la solution.Tableau II.1 : Le groupe SONELGAZ en chiffres ................................................................ 38Tableau II.2 : Présentation des sociétés de distribution ........................................................ 40Tableau II.3 : Tableau présentant la population a interviewé ............................................... 54Tableau II.4 : Synthétisation des besoins détectés ................................................................ 56Tableau II.5 : Tableau descriptif de la dimension « Temps » .............................................. 63Tableau II.6 : Tableau descriptif de la dimension « Client » ............................................... 65Tableau II.7 : Tableau descriptif de la dimension « Facture » .............................................. 67Tableau II.8 : Tableau descriptif de la dimension « Zone géographique » ........................... 69Tableau II.9 : Tableau descriptif de la dimension « Activité » ............................................. 70Tableau II.10 : Tableau descriptif de la dimension « Tarif » .................................................. 70Tableau II.11 : Tableau descriptif de la dimension « Energie » ............................................. 71Tableau II.12 : Liste des agrégats potentiels de l’activité « Vente » ...................................... 75Tableau II.13 : Liste des agrégats utiles de l’activité « Vente » ............................................ 75Tableau II.14 : Détection des dimensions communes entre les volets « Vente » et« Recouvrement »..................................................................................................................... 76Tableau II.15 : Tableau descriptif de la dimension « Nature » ............................................... 77Tableau II.16 : Tableau descriptif des agrégats potentiel du modèle « Recouvrement » ....... 79Tableau II.17 : Tableau descriptif des agrégats utiles du modèle « Recouvrement » ............. 79Tableau II.18 : Détection des dimensions communes entre les volets « Vente »,« Recouvrement » et « Suivi des affaires »…………………..…………….…………………80Tableau II.19 : Tableau descriptif de la dimension « Affaire» ............................................... 81Tableau II.20 : Tableau descriptif de la dimension « Type affaire » ....................................... 8Tableau II.21 : Tableau descriptif de la dimension « Phase »................................................. 83Tableau II.22 : Tableau descriptif des agrégats potentiel du modèle « suivi des affaires » .... 85Tableau II.23 : Tableau descriptif de des agrégats utiles du modèle « Suivi des affaires ».... 85Tableau II.24 : Détection des dimensions communes entre les volets « Vente »,« Recouvrement », « Suivi des affaires » et « suivi des abonnés ». ......................................... 86Tableau II.25 : Tableau descriptif de la dimension « Type abonné » ..................................... 87 IV
  13. 13. Tableau II.26 : Tableau descriptif des agrégats potentiels du modèle « Suivi abonnés » ....... 89Tableau II.27 : Tableau descriptif des agrégats utiles du modèle « Suivi abonnés ».............. 89Tableau II.28 : Tableau donnant les nivaux hiérarchiques de chaque dimension ................... 10Tableau II.29 : Listes des cubes dimensionnels .................................................................... 107 V
  14. 14. Liste des figures Figure I.1 : Le décisionnel au sein du système d’information ............................................ 9 Figure I.2 : Les différentes composantes du décisionnel .................................................... 5 Figure I.3 : Historique des bases de données décisionnelles ............................................... 8 Figure I.4 : Structure des données d’un Data Warehouse ................................................... 9 Figure I.5 : Les Data Mart dans un entrepôt de données selon l’architecture proposée par B. Inmon dite Entreprise Data Warehouse ........................................................................... 11 Figure I.6 : Les Data Mart dans un entrepôt de données selon l’architecture proposée par R. kimball dite approche bus ................................................................................................ 13 Figure I.7 : Architecture globale d’un Data Warehouse.................................................... 13 Figure I.8 : Considération d’un sujet d’analyse comme un cube à plusieurs dimensions . 14 Figure I.9 : Un modèle dimensionnel typique ................................................................... 15 Figure I.10 : Principe de l’architecture MOLAP ................................................................. 18 Figure I.11 : Principe de l’architecture ROLAP .................................................................. 18 Figure I.12 : Exemple de Slicing ......................................................................................... 20 Figure I.13 : Exemple de Dicing ......................................................................................... 20 Figure I.14 : Exemple de Roll up ........................................................................................ 21 Figure I.15 : Exemple de Drill Down .................................................................................. 21 Figure I.16 : Illustration de l’approche « Besoin d’analyse » grâce au cycle de vie dimensionnel de kimball ....................................................................................................... 22 Figure I.17 : Illustration de l’approche « source de données » grâce au cycle de développement du Data Warehouse de Inmon ..................................................................... 23 Figure I.18 : Illustration de l’approche mixte ...................................................................... 24 Figure I.19 : Objectif de qualité de données dans un processus E.T.L ............................... 27 Figure II.1 : Planification de la conduite du projet ............................................................. 34 Figure II.2 : Organigramme représentant l’organisation du Groupe SONELGAZ ............ 37 Figure II.3 : Evolution du chiffre d’affaire du groupe publiée dans le rapport d’activité de l’année 2008 ………………………………………………………………………………38 Figure II.4 : Répartition du chiffre d’affaire publiée dans le rapport d’activité de l’année 2008………… ...................................................................................................................... 39 Figure II.5 : Organisation des sociétés de distribution ....................................................... 40 Figure II.6 : Organisation des directions de distribution .................................................... 41 Figure II.7 : Organisation de la filiale ELIT ....................................................................... 44 Figure II.8 : Organisation de la direction d’étude et de développement............................. 44 Figure II.9 : Diagramme d’activité modélisant l’édition de rapport pour le niveau groupe48 VI
  15. 15. Figure II.10 : La place de l’étape de définition des besoins dans un projet DataWarehouse………………………………………………………………………………….52Figure II.11 : Analyse des priorités du cas de la distribution « SONELGAZ »................ 60Figure II.12 : La dimension du Temps de l’activité « Vente » ......................................... 64Figure II.13 : La dimension client de l’activité « Vente » ................................................ 65Figure II.14 : La dimension facture de l’activité « Vente » .............................................. 68Figure II.15 : La dimension zone de l’activité « Vente ».................................................. 70Figure II.16 : La dimension activité de l’activité « Vente » ............................................. 70Figure II.17 : La dimension Tarif de l’activité « Vente » ................................................. 70Figure II.18 : La dimension énergie de l’activité « Vente » ............................................. 71Figure II.19 : Modèle en étoile de l’activité « Vente » ..................................................... 74Figure II.20 : La dimension Nature de l’activité « Recouvrement »................................. 78Figure II.21 : Modèle en étoile de l’activité « Recouvrement » ....................................... 79Figure II.22 : La dimension affaire de l’activité «Suivi des affaires ».............................. 83Figure II.23 : La dimension type affaire de l’activité « Suivi des affaires »..................... 82Figure II.24 : La dimension phase de l’activité « suivie des affaires » ............................. 83Figure II.25 : Modèle en étoile de l’activité « Suivie des affaires » ................................. 84Figure II.26 : La dimension type abonné de l’activité « Suivi des abonné » .................... 87Figure II.27 : Modèle en étoile de l’activité « Suivi des abonné » ................................... 88Figure II.28 : Architecture global du processus E.T.L ...................................................... 95Figure II.29 : Diagramme d’activité du processus d’alimentation .................................... 94Figure II.30 : Diagramme d’activité du processus de chargement de dimension ............. 98Figure II.31 : Diagramme d’activité du processus de chargement de fait......................... 99Figure II.32 : Cube dimensionnel « Suivi des ventes ». .................................................. 109Figure II.33 : Cube dimensionnel « Suivi des ventes et des consommations ». ............. 110Figure II.34 : Cube dimensionnel « Suivi des abonnés ». ............................................... 111Figure II.35 : Cube dimensionnel « Suivi des recouvrements ». .................................... 111Figure II.36 : Cube dimensionnel « Suivi des affaires ». ................................................ 112Figure II.37 : Diagramme de classe des métadonnées .................................................... 115Figure II.38 : DCU navigation dans les métadonnées et administration des MAJutilisateurs………… ........................................................................................................... 116Figure II.39 : DCU de supervision. ................................................................................. 117Figure II.40 : Architecture technique de la solution. ...................................................... 121Figure II.41 : Digramme de déploiement de la zone d’alimentation. ............................. 125Figure II.42 : Diagramme de déploiement de la zone de restitution. .............................. 126 VII
  16. 16. Introduction générale 8
  17. 17. Contexte général C’est dans un environnement fortement complexe et hautement concurrentielqu’évolue la majeure partie, si ce n’est la totalité, des entreprises. Ce climat de forteconcurrence exige de ces entreprises une surveillance très étroite du marché afin de ne pas selaisser distancer par les concurrents et cela en répondant, le plus rapidement possible, auxattentes du marché, de leur clientèle et de leurs partenaires. Pour se faire, les dirigeants de l’entreprise, quelque en soit d’ailleurs le domained’activité, doivent être en mesure de mener à bien les missions qui leur incombent en lamatière. Ils devront prendre notamment les décisions les plus opportunes. Ces décisions, quiinflueront grandement sur la stratégie de l’entreprise et donc sur son devenir, ne doivent pasêtre prises ni à la légère, ni de manière trop hâtive, compte tenu de leurs conséquences sur lasurvie de l’entreprise. Il s’agit de prendre des décisions fondées, basées sur des informationsclaires, fiables et pertinentes. Le problème est de savoir donc comment identifier et présenterces informations à qui de droit, sachant par ailleurs que les entreprises croulent d’une partsous une masse considérable de données et que d’autre part les systèmes opérationnels« transactionnels » s’avèrent limités, voire inaptes à fournir de telles informations etconstituer par la même un support appréciable à la prise de décision. C’est dans ce contexte que les « systèmes décisionnels » ont vu le jour. Ils offrentaux décideurs des informations de qualité sur lesquelles ils pourront s’appuyer pour arrêterleurs choix décisionnels. Pour se faire, ces systèmes utilisent un large éventail de technologieset de méthodes, dont les « entrepôts de données » (Data Warehouse) représentent l’élémentprincipal et incontournable pour la mise en place d’un bon système décisionnel. De part sa dimension économique et sa position sur le marché énergétique algérien,l’activité journalière de la SONELGAZ génère des données complexes et volumineuses. Cesdonnées représentent une source précieuse d’informations, qui serait à même d’améliorer defaçon significative le processus de prise de décision. Cependant, ces données ne sont pasexploitées de manière satisfaisante, hypothéquant ainsi le processus de prise de décision àtous les niveaux du groupe. Le présent projet tend à la mise en place d’un système en mesure de consolider lesdonnées issues des systèmes transactionnels, et d’offrir des informations de qualité pour lesdécideurs. Il s’agit en fait de mettre à la disposition des décideurs des données à même deles éclairer et leur faciliter une prise de décision prompte en connaissance de cause. Un telsystème requiert la mise en place d’un entrepôt de données fiables contenant les informationsnécessaires à l’accomplissement des processus décisionnels. 9
  18. 18. 1. Problématique Le groupe SONELGAZ est l’opérateur historique et leader du domaine énergétique enAlgérie, notamment dans le domaine de la distribution de l’électricité et du gaz pour lesprofessionnels et les particuliers. Appelé à interagir avec ses clients sur différentes phases de la distribution (demandede branchement, facturation, résiliation,…etc.), le groupe s’est doté, dans un souci de suivi dela clientèle et de gestion de la distribution, d’un « Système de Gestion de la Clientèle –S.G.C.- » constitué de 35 applications, développées en interne et exploité par plus de 2900utilisateurs. Ce système est déployé dans chacune des 58 directions de distributions « D.D. »exploitant une base de donnée décentralisée au niveau de chaque « D.D. ». Dans un pareil contexte, la plus simple des opérations d’analyse devient une tâcheardue. En effet, les sociétés de distributions « SD » se trouvent dans l’incapacité de faire desanalyses fiables, efficaces et à des moments opportuns sans engager des moyens considérablessur des périodes plus ou moins longues. Ainsi, les principales difficultés rencontrées peuventêtre résumées en :• Difficultés dans l’élaboration des rapports d’activité : L’élaboration des rapports d’activité fait intervenir, généralement, plusieurs intermédiaires. En effet, à chaque fois qu’il est nécessaire d’élaborer un rapport d’activité , il faudra procéder d’abord à l’ extraction les données à partir des 58 bases de données installées au niveau des directions de distribution, pour les acheminer ensuite manuellement vers une structure centralisée, qui en fera enfin la consolidation. Il s’agit là d’une procédure lourde outre les éventuelles incohérences et erreurs. Les retards enregistrés, parfois, font que le rapport d’activité est élaboré sur la base d’une consolidation antérieure, en sachant pertinemment que les données ne sont pas à jour.• Lenteur de la procédure de Reporting : La politique de Reporting actuelle, qui du reste est quasi manuelle, connait des lenteurs qui n’arrangent pas les décideurs. Ceux ci ont besoin d’informations fiables et dans des délais raisonnables. À titre indicatif, l’édition d’un rapport national peut prendre, en moyenne, plus d’un mois ce qui est plus que pénalisant pour une bonne prise de décision.• Coût de la procédure de Reporting1 : la procédure de Reporting est jugé très couteuse pour l’entreprise, et cela est principalement du au nombre d’intervenant et des moyens mis en place pour cette dernière.• Insuffisance du module « Statistique » : Afin de produire et offrir un moyen de suivi des activités de la distribution, un module « Statistique » a été développé et intégré dans le système « SGC ». Ce dernier fournit des états statistiques permettant, aux décideurs de niveau D.D., l’analyse et la prise de décision. Cependant, ce module connait quelques1 Voir annexe A 10
  19. 19. problèmes dû au fait qu’il interroge directement la base de données en production. En effet le lancement de la production de n’importe quel rapport du module pénalise le système. Pour éviter cela le module n’est accessible qu’au chef du CTI de la DD. 2. Objectifs du projet Afin de palier aux problèmes précédemment cités, le groupe a initié, à travers sa filialeElit, le présent projet. Ce projet a pour but d’introduire, en premier lieu, une informatique décisionnelle ausein du groupe, tout en conférant aux décideurs un support fiable pour une meilleure prise dedécision. Ainsi, les principaux objectifs assignés au projet sont : • La réduction de la durée globale de l’élaboration des rapports, en essayant de ramener cette durée, au moins, en dessous de la barre des 48 heures. • La Réduction des coûts de la procédure de Reporting actuelle. • La réduction du nombre d’intervenants lors de la production de rapports. • Offrir aux décideurs et aux analystes la possibilité de faire des analyses appropriées. • Offrir des informations fiables, cohérentes et pertinentes, contenant la logique business souhaitée. 11
  20. 20. Planification et conduite du projet L’initiation de tout projet nécessite une phase de planification. Celle out Celle-ci permetde définir les tâches à réaliser, maîtriser les risques et rendre compte de l’état d’avancementdu projet. « Planifier optimise ainsi les chances de réussite dun projet en améliorant laproductivité grâce à une meilleure maîtrise de la qualité. » [Soler, 2001]. Pour garantir le bon déroulement du projet, tout en respectant les délais, nous avonsélaboré une planification globale de conduite du projet. Le diagramme suivant décrit cetteplanification ainsi que l’ordonnancement prévu des phases du projet. Conception E.T.L Figure : Planification et conduite du projet. Afin de présenter notre travail, le présent mémoire est organisé en trois parties et seprésente comme suit : Après une introduction générale dans laquelle nous présentons le contexte général duprojet, ainsi que la problématique et les objectifs visés. La première partie présente les aspectsthéoriques du domaine des systèmes d’information d’aide à la décision, en évoquant leursdéfinitions et les concepts de bases relatifs aux « entrepôts de données » et à la modélisationdimensionnelle. 12
  21. 21. Dans la deuxième partie, nous présentons le travail réalisé au sein du GroupeSONELGAZ à travers les six suivants chapitres: Le chapitre un, présente l’organisme d’accueil, sa structure organisationnelle, sonactivité et la culture de l’entreprise en matière d’utilisation des technologies de l’information. Le chapitre deux a pour vocation de présenter l’existant décisionnel au sein del’entreprise et selon différents niveaux de prise de décision. Le chapitre trois présente une synthèse de la collecte des besoins des utilisateurs, ainsique son déroulement. Le chapitre quatre contient la conception de la partie d’entreposage de notre solution.Il présente entre autre les modèles dimensionnels des activités recensées. Le chapitre cinq à pour but de présenter la conception de la zone d’alimentation, ainsique les stratégies adoptées. Le chapitre six, quant à lui, donne la conception des cubes dimensionnels en détaillantles différentes caractéristiques de chaque cube (dimensions, mesurables et hiérarchies). La troisième partie décrie l’architecture globale de la solution, et cela en présentant lesdifférents outils intégrés et les volets de la solution développés. Elle décrit aussi la manièredont se passe le déploiement de la solution. Une conclusion générale est proposée afin de synthétiser le travail réalisé et de citerles perspectives du projet. 13
  22. 22. Partie I : Synthèse bibliographique« Un entrepôt de données ne sachète pas, il se construit. »Bill Inmon 14
  23. 23. I. Introduction Toutes les entreprises du monde disposent d’une masse de données plus ou moinsconsidérable. Ces informations proviennent soit de sources internes (générées par leurssystèmes opérationnels au fil des activités journalières), ou bien de sources externes (web,partenaire, .. etc.). Cette surabondance de données, et l’impossibilité des systèmes opérationnels de lesexploiter à des fins d’analyse conduit, inévitablement, l’entreprise à se tourner vers unenouvelle informatique dite décisionnelle qui met l’accent sur la compréhension del’environnement de l’entreprise et l’exploitation de ces données à bon escient.En effet, les décideurs de l’entreprise ont besoin d’avoir une meilleure vision de leurenvironnement et de son évolution, ainsi, que des informations auxquelles ils peuvent se fier.Cela ne peut se faire qu’en mettant en place des indicateurs « business » clairs et pertinentspermettant la sauvegarde, l’utilisation de la mémoire de l’entreprise et offrant à ses décideursla possibilité de se reporter à ces indicateurs pour une bonne prise de décision. Le « Data Warehouse », « Entrepôt de données » en français, constitue, dans cesconditions, une structure informatique et une fondation des plus incontournables pour la miseen place d’applications décisionnelles. Le concept de Data Warehouse, tel que connu aujourd’hui, est apparu pour la premièrefois en 1980 ; l’idée consistait alors à réaliser une base de données destinée exclusivement auprocessus décisionnel. Les nouveaux besoins de l’entreprise, les quantités importantes dedonnées produites par les systèmes opérationnels et l’apparition des technologies aptes à samise en œuvre ont contribué à l’apparition du concept « Data Warehouse » comme supportaux systèmes décisionnels. I.1. Les systèmes décisionnels La raison d’être d’un entrepôt de données, comme évoqué précédemment, est la mise enplace d’une informatique décisionnelle au sein de l’entreprise. Pour cela il serait assezintéressant de définir quelques concepts clés autour du décisionnel. Afin de mieux comprendre la finalité des systèmes décisionnels, nous nous devons de lesplacer dans leurs contextes et rappeler ce qu’est un système d’information. «Le système d’information est l’ensemble des méthodes et moyens de recueil de contrôleet de distribution des informations nécessaires à l’exercice de l’activité en tout point del’organisation. Il a pour fonction de produire et de mémoriser les informations, de l’activitédu système opérant (système opérationnel), puis de les mettre à disposition du système dedécision (système de pilotage)»[Le Moigne, 1977]. Les différences qui existent entre le système de pilotage et le système opérationnel, dupoint de vue fonctionnel ou des tâches à effectuer, conduit à l’apparition des « systèmesd’information décisionnels » (S.I.D.). Ces différences seront clairement illustrées un peu plusloin dans notre document. 15
  24. 24. Les origines des SID remontent au début de l’informatique et des systèmes d’informationqui ont, tous deux, connu une grande et complexe évolution liée notamment à la technologie.Cette évolution se poursuit à ce jour2.Parmi les différentes définitions du décisionnel « business intelligence B.I. » qui ont étédonnées on trouve : • "Le Décisionnel est le processus visant à transformer les données en informations et, par lintermédiaire dinterrogations successives, transformer ces informations en connaissances." [Dresner, 2001]. I.1.1. La place du décisionnel dans l’entreprise: Figure I.1 : Le décisionnel au sein du Système d’information [Goglin, 1998] nnel 1998]. La figure ci-dessus illustre parfaitement la place qu revient au décisi dessus qui décisionnel au seind’une entreprise. Cette place, comprend plusieurs fonctions clés de l’entreprise. Les finalités ,décisionnelles, étant différentes selon le poste et la fonction occupée on pour but occupée, ontd’engendrer plusieurs composantes.2 Synthétisation à partir de la thèse de Bouzghoub A. « Modélisation des entrepôts de données XML:application au domaine de la sécurité sociale » [Bouzghoub, 2008]. 16
  25. 25. I.1.2. Les différentes composantes du décisionnel s En relation étroite avec les nouvelles technologies de l’information et destélécommunications, le système décisionnel se manifeste à différents niveaux selon leurs eutilités et leurs missions principales comme illustré dans la figure suivante : principales, Figure I.2 : Les différentes composantes du décisionnel [Goglin, 1998] 1998]. 17
  26. 26. I.3. Décisionnel vs transactionnel Le tableau suivant résume de façon non exhaustive les différences qu’il peut y avoirentre les systèmes transactionnels et les systèmes décisionnels selon les données et l’usage faitdes systèmes. Différence Systèmes transactionnels SID Orienté applications Orienté thèmes et sujets Situation instantanée Situation historique par les données Donnée détaillées et codées non Informations agrégées cohérentes redondantes souvent avec redondance Données changeantes constamment Informations stables et synchronisées dans le temps Pas de référentiel commun Un référentiel unique Assure l’activité au quotidien Permet l’analyse et la prise de décision Pour les opérationnels Pour les décideurs Mises à jour et requêtes simples Lecture unique et requêtes complexes L’usage transparentes Temps de réponse immédiats Temps de réponse moins critiques Faibles volumes à chaque transaction Large volume manipulé Conçu pour la mise à jour Conçue pour l’extraction Usage maîtrisé Usage aléatoire Tableau I.1 : Tableau comparatif entre les systèmes transactionnels et les systèmes décisionnels. Ces différences font ressortir la nécessité de mettre en place un système répondant auxbesoins décisionnels. Ce système n’est rien d’autre que le « Data Warehouse ». 18
  27. 27. II. Le Data Warehouse II.1 Qu’est ce qu’un Data Warehouse Bill Inmon définit le Data Warehouse, dans son livre considéré comme étant la référencedans le domaine “Building the Data Warehouse” [Inmon, 2002] comme suit: « Le Data Warehouse est une collection de données orientées sujet, intégrées, nonvolatiles et évolutives dans le temps, organisées pour le support d’un processus d’aide àla décision. » Les paragraphes suivants illustrent les caractéristiques citées dans la définition d’Inmon.Orienté sujet : le Data Warehouse est organisé autour des sujets majeurs de l’entreprise,contrairement à l’approche transactionnelle utilisée dans les systèmes opérationnels, qui sontconçus autour d’applications et de fonctions telles que : cartes bancaires, solvabilité client…,les Data Warehouse sont organisés autour de sujets majeurs de l’entreprise tels que : clientèle,ventes, produits…. Cette organisation affecte forcément la conception et l’implémentation desdonnées contenues dans le Data Warehouse. Le contenu en données et en relations entre ellesdiffère aussi. Dans un système opérationnel, les données sont essentiellement destinées àsatisfaire un processus fonctionnel et obéit à des règles de gestion, alors que celles d’un DataWarehouse sont destinées à un processus analytique.Intégrée : le Data Warehouse va intégrer des données en provenance de différentes sources.Cela nécessite la gestion de toute incohérence.Evolutives dans le temps : Dans un système décisionnel il est important de conserver lesdifférentes valeurs d’une donnée, cela permet les comparaisons et le suivi de l’évolution desvaleurs dans le temps, alors que dans un système opérationnel la valeur d’une donnée estsimplement mise à jour. Dans un Data Warehouse chaque valeur est associée à un moment« Every key structure in the data warehouse contains - implicitly or explicitly -an element oftime » [Inmon, 2000].Non volatiles : c’est ce qui est, en quelque sorte la conséquence de l’historisation décriteprécédemment. Une donnée dans un environnement opérationnel peut être mise à jour ousupprimée, de telles opérations n’existent pas dans un environnement Data Warehouse.Organisées pour le support d’un processus d’aide à la décision : Les données du DataWarehouse sont organisées de manière à permettre l’exécution des processus d’aide à ladécision (Reporting, Data Mining…). 19
  28. 28. II.2 Historique des Data Warehouse L’origine du concept « Data Warehouse » D.W (entrepôt de données en français) remonteaux années 80, durant lesquelles un intérêt croissant au système décisionnel a vu le jour, dûessentiellement à l’émergence des SGBD relationnel et la simplicité du modèle relationnel etla puissance offerte par le langage SQL, Au début, le Data Warehouse n’était rien d’autre qu’une copie des données du systèmeopérationnel prise de façon périodique, dédiée à un environnement de support à la prise dedécision. Ainsi, les données étaient extraites du système opérationnel, stockées dans unenouvelle base de données «concept d’infocentre », le motif principal étant de répondre auxrequêtes des décideurs sans pour autant altérer les performances des systèmes opérationnels. Le Data Warehouse, tel qu’on le connaît actuellement, n’est plus vu comme une copie-ou un cumul de copies prises de façon périodique- des données du système opérationnel. Ilest devenu une nouvelle source d’information, alimenté avec des données recueillies etconsolidées des différentes sources internes et externes. Entrepôt de données Infocentre bases de données opérationnelles 1970 1980 1990 Figure I.3 : évolution des bases de données décisionnelles. 20
  29. 29. II.3 Structure des données d’un Data Warehouse Le Data Warehouse a une structure bien définie, selon différents niveaux d’agrégation et de détail des données. Cette structure est définie par Inmon [Inmon, 2000] comme suit : Données fortement agrégéesM Données agrégéesETADONN Données détailléesÉES Données détaillées archivées Figure I.4 : Structure des données d’un Data Warehouse. Données détaillées : ce sont les données qui reflètent les événements les plus récents, fréquemment consultées, généralement volumineuses car elles sont d’un niveau détaillé. Données détaillées archivées : anciennes données rarement sollicitées, généralement stockées dans un disque de stockage de masse, peu coûteux, à un même niveau de détail que les données détaillées. Données agrégées : données agrégées à partir des données détaillées. Données fortement agrégées : données agrégées à partir des données détaillées, à un niveau d’agrégation plus élevé que les données agrégées. 21
  30. 30. Meta données : ce sont les informations relatives à la structure des données, les méthodesd’agrégation et le lien entre les données opérationnelles et celles du Data Warehouse. Lesmétadonnées doivent renseigner sur : • Le modèle de données, • La structure des données telle qu’elle est vue par les développeurs, • La structure des données telle qu’elle est vue par les utilisateurs, • Les sources des données, • Les transformations nécessaires, • Suivi des alimentations, II.4 Les éléments d’un Data Warehouse L’environnement du Data Warehouse est constitué essentiellement de quatrecomposantes : les applications opérationnelles, la zone de préparation des données, laprésentation des données et les outils d’accès aux données.Les applications opérationnelles : ce sont les applications du système opérationnel del’entreprise et dont la priorité est d’assurer le fonctionnement de ce dernier et sa performance.Ces applications sont extérieures au Data Warehouse.Préparation des données : la préparation englobe tout ce qu’il y a entre les applicationsopérationnelles et la présentation des données. Elle est constituée d’un ensemble de processusappelé ETL, « Extract, transform and Load », les données sont extraites et stockées pour subirles transformations nécessaires avant leur chargement. « Un point très important, dans l’aménagement d’un entrepôt de données, estd’interdire aux utilisateurs l’accès à la zone de préparation des données, qui ne fournit aucunservice de requête ou de présentation » [Kimball, 2002].Présentation des données : c’est l’entrepôt où les données sont organisées et stockées. Si lesdonnées de la zone de préparation sont interdites aux utilisateurs, la zone de présentation esttout ce que l’utilisateur voit et touche par le biais des outils d’accès. L’entrepôt de données est constitué d’un ensemble de Data Mart. Ce dernier est définicomme étant une miniaturisation d’un Data Warehouse, construit autour d’un sujet précisd’analyse ou consacré à un niveau départemental3. Cette différence de construction, autour d’un sujet ou au niveau départemental, définitla façon d’implémentation du Data Mart au niveau de l’entrepôt. On distingue, en effet, deuxarchitectures internes du Data Warehouse :3 Synthétisation [Chuck, 1998] page 86. 22
  31. 31. 1. Data Mart indépendant Les Data Mart sont des versions miniaturisées du Data Warehouse au niveaudépartemental, alimentées par le Data Warehouse et basées sur les besoins départementaux en s sinformations [Inmon, 2002].Figure I.5 : les Data Mart dans un entrepôt de données selon l’architecture Entreprise Data Warehouse (E.D.W) [Inmon, 2002]. 23
  32. 32. 2. Data Mart interconnectés Les Data Mart sont construi autour de sujets, interconnectés grâce aux tables des es construitsfaits contenues dans le Data Warehouse, ce dernier se compose alors des Data Mart et cestables des faits, appelées bus4.Figure I.6 : les Data Mart dans un entrepôt de données selon l’architecture bus de données [Kimball, 2002].Zone d’outils d’accès : c’est l’ensemble des moyens fournis aux utilisateurs du DataWarehouse pour exploiter la zone de présentation des données en vue de la prise de décision.Ces outils varient des simples requêtes ad hoc aux outils permettant l’application de forage dedonnées plus complexes. Environ 80 à 90% des utilisateurs sont desservis par des applications .d’analyses préfabriquées, consista essentiellement en des requêtes préétablies. ant s.4 Appellation proposée par R. Kimball dans son ouvrage [Kimball, 2002]. 24
  33. 33. II.5 Architecture d’un Data Warehouse Après avoir exposé et défini chacun des éléments constituant l’environnement d’un DataWarehouse, il serait intéressant de connaitre le positionnement de ces éléments dans unearchitecture globale d’un Data Warehouse : Figure I.7 : Architecture globale d’un Data Warehouse5.5 http://www.formations-sas.fr/data-warehouse 25
  34. 34. III. Modélisation des données de l’entrepôt III.1 La modélisation dimensionnelle et ses concepts Les Data Warehouse sont destinés à la mise en place de systèmes décisionnels. Cessystèmes, devant répondre à des objectifs différents des systèmes transactionnels, ont faitressortir très vite la nécessité de recourir à un modèle de données simplifié et aisémentcompréhensible. La modélisation dimensionnelle permet cela. Elle consiste à considérer unsujet d’analyse comme un cube à plusieurs dimensions, offrant des vues en tranches ou desanalyses selon différents axes. Figure I.8 : Considération d’un sujet d’analyse comme un cube à plusieurs dimensions. En plus de la perception intuitive qu’offre la modélisation dimensionnelle, celle-ci estréputée pour ses performances élevées. La nomination « schéma des jointures en étoile » a longtemps été adoptée pour décrireun modèle dimensionnel. Cette nomination est due au fait que le diagramme qui représente unmodèle dimensionnel ressemble à une étoile, avec une grande table centrale et un jeu depetites tables auxiliaires disposées en étoile autour de la table centrale. Celle-ci est appeléetable de faits et les autres tables sont appelées tables de dimensions. La figure suivanteillustre untel modèle : 26
  35. 35. Figure I.9 : Un modèle dimensionnel typique [Kimball, 1996]. III.1.1 Concept de fait Une table de faits est la table centrale d’un modèle dimensionnel, où les mesures deperformances sont stockées. Une ligne d’une table de faits correspond à une mesure. Cesmesures sont généralement des valeurs numériques, additives ; cependant des mesurestextuelles peuvent exister mais sont rares. Le concepteur doit faire son possible pour faire desmesures textuelles des dimensions, car elles peuvent êtres corrélées efficacement avec lesautres attributs textuels de dimensions. Une table de faits assure les liens plusieurs à plusieurs entre les dimensions. Ellescomportent des clés étrangères, qui ne sont autres que les clés primaires des tables dedimension. III.1.2 Concept de dimension Les tables de dimension sont les tables qui raccompagnent une table de faits, ellescontiennent les descriptions textuelles de l’activité. Une table de dimension est constituée denombreuses colonnes qui décrivent une ligne. C’est grâce à cette table que l’entrepôt dedonnées est compréhensible et utilisable; elles permettent des analyses en tranches et en dés. Une dimension est généralement constituée : d’une clé artificielle, une clé naturelle etdes attributs. « Une table de dimension établit l’interface homme / entrepôt, elle comporte une cléprimaire » [Kimball, 2002]. 27
  36. 36. III.1.3 Comparatif entre les tables de faits et les tables de dimensions Le tableau suivant récapitule les différences au niveau des données de ces tables : Tables de faits Tables de dimensionsStructure Peu de colonnes beaucoup de lignes Peu de lignes beaucoup de colonnesDonnées Mesurable, généralement numérique Descriptives généralement textuellesRéférentiel Plusieurs clés étrangères Une clé primaireValeur Prend de nombreuses valeurs Plus ou moins constantesManipulation Participe à des calculs Participe à des contraintesSignification Valeurs de mesure DescriptiveRôle Assure les relations entre les Assure l’interface homme / entrepôt dimensions de données Tableau I.2 : Tableau comparatif entre les tables de faits et les tables de dimensions. III.2 Différents modèles de la modélisation dimensionnelle Modèle en étoile : comme indiqué précédemment, ce modèle se présente comme uneétoile dont le centre n’est autre que la table des faits et les branches sont les tables dedimension. La force de ce type de modélisation est sa lisibilité et sa performance. Modèle en flocon : identique au modèle en étoile, sauf que ses branches sont éclatéesen hiérarchies. Cette modélisation est généralement justifiée par l’économie d’espace destockage, cependant elle peut s’avérer moins compréhensible pour l’utilisateur final, et trèscouteuse en terme de performances. Modèle en constellation : Ce n’est rien d’autre que plusieurs modèles en étoile liésentre eux par des dimensions communes. 28
  37. 37. III.3 Le concept OLAP III.3.1 Généralités Le terme OLAP (On-Line Analytical Processing) désigne une classe de technologiesconçue pour l’accès aux données et pour une analyse instantanée de ces dernières, dans le butde répondre aux besoins de Reporting et d’analyse. R. Kimball définit le concept « OLAP » comme «Activité globale de requêtage et deprésentation de données textuelles et numériques contenues dans l’entrepôt de données; Styled’interrogation spécifiquement dimensionnel » [Kimball, 2005]. C’est en continuant sur sa lancée, qui lui a permis de définir le model OLTP pour lesbases de données relationnelles, que le concept OLAP fut introduit et défini6 en 1993 par E.FCodd, le père des bases de données relationnelles, dans un document technique portant le titrede « Providing OLAP (On-Line Analytical Processing) to User-Analysts : An IT Man-date »[Codd, 1993]. III.3.2 Architectures des serveurs OLAP Le noyau d’un système OLAP est son serveur. Ces serveurs sont classés selon la politiquerégissant l’architecture du serveur. Ainsi, ces architectures peuvent être distinguées commesuit: III.3.2.1 Les systèmes à architecture MOLAP Ces systèmes MOLAP « Multidimentional On-line Analytical Processing » sontconçus exceptionnellement pour l’analyse multidimensionnelle. R. Kimball définit ces systèmes comme étant un « Ensemble d’interfaces utilisateur,d’applications et de technologies de bases de données propriétaire dont l’aspect dimensionnelest prépondérant » [Kimball, 2005]. Ainsi donc cette base adopte réellement la structure multidimensionnelle, exploitant dece fait ces capacités au maximum. En effet MOLAP offre des temps d’accès optimisés et celaen prédéfinissant les opérations de manipulation et de chemin d’accès prédéfinis. Autre caractéristique du MOLAP c’est qu’il agrège tout par défaut, pénalisant du couple système lorsque la quantité de données à traiter augmente. On parle généralement devolume de l’ordre du giga-octet pas plus.6 Cette définition passe par l’introduction de 12 règles. Six autres règles furent par la suite, en 1995, ajoutéesaux 12 précédentes et le terme « règles » remplacé par dispositif «features » par le même auteur à savoirCodd (Voir annexe B). 29
  38. 38. Data Warehouse Moteur MOLAP Aide à la décision Données Traitements Présentation Stockage des Rapports données détaillées (et Multi-Dimensionnel agrégées) Figure I.10 :Principe de l’architecture MOLAP [Nakache, 1998]. III.3.2.2 Les systèmes à architecture ROLAP « Ensemble d’interfaces utilisateurs et d’applications qui donnent une visiondimensionnelle à des bases de données relationnelles » [Kimball, 2005]. Les systèmes ROLAP « Relationnel On-line Analytical Processing » sont en mesurede simuler le comportement d’une SGBD multidimensionnel en exploitant un SGBDrelationnel. L’utilisateur aura ainsi l’impression d’interroger un cube multidimensionnel alorsqu’en réalité il ne fait qu’adresser des requêtes sur une base de données relationnelles. ROLAP n’agrège rien. Les règles d’agrégations sont crées au préalable et représentéesdans une table relationnelle ce qui cause une lourdeur d’administration mais confère unecertaine performance et un gage de cohérence lors de l’utilisation. Cette structure est généralement adoptée dans le but de se dispenser de l’acquisitiond’un SGBD relationnel. Data Warehouse Moteur ROLAP Aide à la décision Données Traitements Présentation Stockage des Génération de plans Rapports données détaillées (et dexécution SQL Multi-Dimensionnel agrégées) et afin dobtenir des des méta-données fonctionnalités OLAP. Figure I.11 : Principe de l’architecture ROLAP [Nakache, 1998]. 30
  39. 39. III.2.2.3 Les systèmes à architecture HOLAP Les systèmes HOLAP « Hybride On-line Analytical Processing » sont une sorte decompromis entre les différents systèmes précités. Cette combinaison donne à ce type desystème les avantages du ROLAP et du MOLAP en utilisant tour à tour l’un ou l’autre selonle type de données.III.2.2.4 Autres architecture OLAP Bien que les architectures évoquées ci-dessus soient les plus répandues et les plusadoptées par les fournisseurs de solutions OLAP, d’autres systèmes se basent sur desarchitectures différentes telles que l’architecture OOLAP « Object On-line AnalyticalProcessing », ou alors DOLAP « Desktop On-line Analytical Processing » qui décrit unecatégorie de produits qui ne sont pas nécessairement connectés à un serveur et qui s’appuientsur une source de données (un cube) construites, stockées et exploitées en local sur la machinede l’utilisateur. III.4 La navigation dans les données Une fois que le serveur OLAP a construit le cube multidimensionnel « ou simulé cecube selon l’architecture du serveur », plusieurs opérations sont possibles sur ce dernieroffrant ainsi la possibilité de naviguer dans les données qui le constituent. Ces opérations denavigation « Data Surfing » doivent être, d’une part, assez complexes pour adresserl’ensemble des données et, d’autre part, assez simples afin de permettre à l’utilisateur decirculer de manière libre et intuitive dans le modèle dimensionnel. Afin de répondre à ces attentes, un ensemble de mécanismes est exploité, permettantune navigation par rapport à la dimension et par rapport à la granularité d’une dimension. III.4.1 Slice & Dice Le « Slicing » et le « Dicing » sont des techniques qui offrent la possibilité de fairedes tranches « trancher » dans les données par rapport à des filtres de dimension bien précis,se classant de fait comme des opérations liées à la structure « se font sur les dimensions ». Ladifférence entre eux se manifestent dans le fait que : Le Slicing consiste à faire une sélection de tranches du cube selon des prédicats etselon une dimension « filtrer une dimension selon une valeur » [Chouder, 2008]. 31
  40. 40. Figure I I.12 : Exemple de Slicing.Le Dicing, quant à lui, peut être vu comme étant une extraction d’un sous cube. Figure I I.13 : Exemple de Dicing. III.4.2 Drill-down & Roll-up up Ces méthodes, appelées aussi « forage vers le bas/vers le haut », sont les méthodes lesplus répandues pour une navigation dans un entrepôt de données. Elles consistent àreprésenter les données du cube à un niveau de granularité inf rieur, dans le cas du « Drill - inférieur,down », ou un niveau supérieur, c’est le « Roll-up ». En somme, ces deux opérationspermettent de contrôler le niveau de détail des données du cube. 32
  41. 41. Ces opérations ne sont pas aussi faciles à implémenter car basées sur la notion d’unebonne hiérarchisation des attributs d’une dimension et la différenciation entre tous les niveauxde hiérarchie disponibles dans les différentes dimensions. Figure I.14 : Exemple de Roll up « moins de détails sur les années». Figure I.15 : Exemple de Drill-Down « plus de détails sur les régions ». 33
  42. 42. IV. Démarche de Construction d’un Data Warehouse Plusieurs chercheurs ou équipes de recherche ont essayé de proposer des démarchespour la réalisation d’un projet Data Warehouse, ces démarches se croisent essentiellementdans les étapes suivantes : • Modélisation et conception du Data Warehouse, • Alimentation du Data Warehouse, • Mise en œuvre du Data Warehouse, • Administration et maintenance du Data Warehouse, IV.1 Modélisation et conception du Data WarehouseLes deux approches les plus connues dans la conception des Data Warehouse sont : • L’approche basée sur les besoins d’analyse, • L’approche basée sur les sources de données, Aucune des deux approches citées n’est ni parfaite, ni applicable à tous les cas. Toutesdeux doivent être étudiées pour choisir celle qui s’adapte le mieux à notre cas. Quelque soit l’approche adoptée pour la conception d’un Data Warehouse, ladéfinition de celui-là reste la même. En étant un support d’aide à la décision, le DataWarehouse se base sur une architecture dimensionnelle. IV.1.1 Approche « Besoins d’analyse » Le contenu du Data Warehouse sera déterminé selon les besoins de l’utilisateur final.Cette approche est aussi appelée « approche descendante » (Top-Down Approach) et estillustrée par R. Kimball grâce à son cycle de vie dimensionnel comme suit : Figure I.16 : illustration de l’approche « Besoins d’analyse » grâce au cycle de vie dimensionnel de Kimball [Kimball, 2004]. 34
  43. 43. Avantages InconvénientsAucun risque de concevoir une solution Pas de prise en compte de l’évolution desobsolète avant d’être opérationnelle besoins de l’utilisateur. Nécessite une modification de la structure du Data Warehouse en cas de nouveau besoin Négligence du système opérationnel Difficulté de déterminer les besoins des utilisateurs Tableau I.3 : Avantages et inconvénients de l’approche « Besoins d’analyse ». IV.1.2 Approche « Source de données » Le contenu du Data Warehouse est déterminé selon les sources de données. Cetteapproche est appelée : Approche ascendante (Bottom-up Approach). Figure I.17 : Illustration de l’approche « Source de données » grâce au cycle de développement du DW de Inmon [Inmon, 2002]. 35
  44. 44. Inmon considère que l’utilisateur ne peut jamais déterminer ses besoins dès le départ,« Donnez moi ce que je vous demande, et je vous direz ce dont j’ai vraiment besoin »7, ilconsidère que les besoins sont en constante évolution. Avantages InconvénientsMeilleure prise en charge de l’évolution des Risque de concevoir une solution obsolètebesoins avant qu’elle soit opérationnelle Evolution du schéma des données source Complexité de source de données Tableau I.4 : Avantages et inconvénients de l’approche « Sources de données». IV.1.3 Approche mixte Une combinaison des deux approches appelée hybride ou mixte peut s’avérer efficace.Elle prend en considération les sources de données et les besoins des utilisateurs. Cette approche consiste à construire des schémas dimensionnels à partir des structuresdes données du système opérationnel, et les valider par rapport aux besoins analytiques. Cetteapproche cumule les avantages et quelques inconvénients des deux approches déjà citées,telles que la complexité des sources de données et la difficulté quant à la détermination desbesoins analytiques. Figure I.18 : Illustration de l’approche mixte. “Give me what I tell you I want, then I can tell you what I really want.”[Inmon, 2002]7 36
  45. 45. Cette étape aboutit à l’établissement du modèle dimensionnel validé du DataWarehouse. Ce modèle dimensionnel sera transformé en modèle physique, qui différera dumodèle dimensionnel.IV.2 Alimentation du Data Warehouse Une fois le Data Warehouse conçu, il faut l’alimenter et le charger en données. Cettealimentation (le plus souvent appelée processus ETL « Extract-Transform-Load ») se dérouleen 3 phases qui sont : • Extraction des données primaires (issues par exemple des systèmes de production), • Transformation des données, • Le chargement des données traitées dans l’entrepôt de données, Ces trois étapes décrivent une mécanique cyclique qui a pour but de garantirl’alimentation du Data Warehouse en données homogènes, propres et fiables. IV.2.1 Les phases de l’alimentation « E.T.L. » Les phases du processus E.T.L. représentent la mécanique d’alimentation du DataWarehouse. Ainsi elles se déroulent comme suit : a) L’extraction des données « L’extraction est la première étape du processus d’apport de données à l’entrepôt dedonnées. Extraire, cela veut dire lire et interpréter les données sources et les copier dans lazone de préparation en vue de manipulations ultérieures. » [Kimball, 2005]. Elle consiste en : • Cibler les données, • Appliquer les filtres nécessaires, • Définir la fréquence de chargement, Lors du chargement des données, il faut extraire les nouvelles données ainsi que leschangements intervenus sur ces données. Pour cela, il existe trois stratégies de capture dechangement : • Colonnes d’audit : la colonne d’audit, est une colonne qui enregistre la dated’insertion ou du dernier changement d’un enregistrement. Cette colonne est mise à jour soitpar des triggers ou par les applications opérationnelles, d’où la nécessité de vérifier leurfiabilité. • Capture des logs : certains outils ETL utilisent les fichiers logs des systèmes sourcesafin de détecter les changements (généralement logs du SGBD). En plus de l’absence de cettefonctionnalité sur certains outils ETL du marché, l’effacement des fichiers logs engendre laperte de toute information relative aux transactions. 37
  46. 46. • Comparaison avec le dernier chargement : le processus d’extraction sauvegarde descopies des chargements antérieurs, de manière à procéder à une comparaison lors de chaquenouvelle extraction. Il est impossible de rater un nouvel enregistrement avec cette méthode. b) La transformation des données La transformation est la seconde phase du processus. Cette étape, qui du reste est trèsimportante, assure en réalité plusieurs tâches qui garantissent la fiabilité des données et leursqualités. Ces tâches sont : • Consolidation des données. • Correction des données et élimination de toute ambiguïté. • Elimination des données redondantes. • Compléter et renseigner les valeurs manquantes. Cette opération se solde par la production d’informations dignes d’intérêt pour l’entrepriseet de et sont donc prêtes à être entreposées. c) Le chargement des données C’est la dernière phase de l’alimentation d’un entrepôt de données, le chargement est uneétape indispensable. Elle reste toute fois très délicate et exige une certaine connaissance desstructures du système de gestion de la base de données (tables et index) afin d’optimiser aumieux le processus. IV.2.2 Politiques de l’alimentation Le processus de l’alimentation peut se faire de différentes manières. Le choix de lapolitique de chargement dépend des sources : disponibilité et accessibilité. Ces politiquessont8 : • Push : dans cette méthode, la logique de chargement est dans le système de production. Il " pousse " les données vers la zone de préparation quand il en a loccasion. Linconvénient est que si le système est occupé, il ne poussera jamais les données. • Pull : contrairement de la méthode précédente, le Pull " tire " les données de la source vers la zone de préparation. Linconvénient de cette méthode est quelle peut surcharger le système sil est en cours dutilisation. • Push-pull : cest la combinaison des deux méthodes. La source prépare les données à envoyer et indique à la zone de préparation quelle est prête. La zone de préparation va alors récupérer les données.8 http://grim.developpez.com/articles/concepts/etl/ 38
  47. 47. Aussi, le processus d’alimentation doit répondre à certaines exigences illustrées par lafigure suivante : Être correctif Être rapide Être sûr Processus ETL Être transparent Figure I.19 : Objectif de qualité de données dans un processus ETL [Kimball, 2004]. • Sûr : assure l’acheminement des données et leur livraison. • Rapide : la quantité de données manipulées peut causer des lenteurs. Le processusd’alimentation doit palier à ce problème et assurer le chargement du Data Warehouse dans desdélais acceptables. • Correctif : le processus d’alimentation doit apporter les correctifs nécessaires pouraméliorer la qualité des données. • Transparent : le processus de l’ETL doit être transparent afin d’améliorer la qualitédes données. 39
  48. 48. IV.2.3 Les outils E.T.L. Les outils E.T.L, en français E.T.C « Extraction-Transformation-Chargement » [Kimball,2005], sont des outils qui garantissent la faisabilité et facilitent le déroulement des trois phasescitées précédemment. D’où leur importance dans un projet Data Warehouse. IV.3 Mise en œuvre du Data Warehouse C’est la dernière étape d’un projet Data Warehouse, soit son exploitation. L’exploitationdu Data Warehouse se fait par le biais d’un ensemble d’outils analytiques développés autourdu Data Warehouse. Donc cette étape nécessite l’achèvement du développement, ou de lamise en place, de ces outils qui peuvent accomplir les fonctions suivantes: a. Requêtage ad-hoc : Le requêtage ad-hoc reste très fréquent dans ce type de projet. En effet, les utilisateursde l’entrepôt de données, et spécialement les analystes, seront amenés à interagir avec le DWvia des requêtes ad-hoc dans le but de faire les analyses requises par leurs métiers et,d’élaborer aussi, des rapports et des tableaux de bords spécifiques. L’accès à ce genre de service peut se faire via différentes méthodes et outils.Cependant, les spécialistes en la matière préconisent de laisser la possibilité à l’utilisateur dechoisir les outils qui lui paraissent les plus adéquats. b. Reporting : Destiné essentiellement à la production de rapports et de tableaux de bord, « il est laprésentation périodique de rapports sur les activités et résultats dune organisation, duneunité de travail ou du responsable dune fonction, destinée à en informer ceux chargés de lessuperviser en interne ou en externe, ou tout simplement concernés par ces activités ourésultants »9. Ces outils de Reporting ne sont pas, à proprement parler, des instruments daide à ladécision, mais, lorsqu’ils sont utilisés de manière appropriée, ils peuvent fournir une précieusevue d’ensemble. Les rapports sont alors crées par le biais d’outils de Reporting qui permettent de leurdonner un format prédéterminé. Les requêtes sont constituées lors de l’élaboration desrapports qui seront ensuite diffusés périodiquement en automatique ou ponctuellement à lademande.9 http://fr.wikipedia.org/wiki/Reporting 40
  49. 49. c. Analyse dimensionnelle des données: L’analyse dimensionnelle est sans doute celle qui exploite et fait ressortir au mieux lescapacités de l’entrepôt de données. Le but par l’analyse dimensionnelle est d’offrir auxutilisateurs la possibilité d’analyser les données selon différents critères afin de confirmer unetendance ou suivre les performances de l’entreprise. Cette analyse se fait selon le principe OLAP, offrant de ce fait aux utilisateurs lespossibilités de recourir à différentes opérations facilitant la navigation dans les données. Lamise en place de ces outils est une option très intéressante dans la mesure où les donnéesseront accessibles en analyses instantanées. Plusieurs fournisseurs de solution OLAP existentsur le marché et offrent des solutions construites sur des méthodes et technologies différentes.C’est d’ailleurs pour cela que le choix de la solution doit se faire au préalable, selon lesbesoins en utilisation, la taille de l’entrepôt et les moyens techniques disponibles. d. Tableaux de bord : Les tableaux de bord sont un outil de pilotage qui donne une vision sur l’évolutiond’un processus, afin de permettre aux responsables de mettre en place des actions correctives. « Le tableau de bord est un ensemble d’indicateurs peu nombreux conçus pourpermettre aux gestionnaires de prendre connaissance de l’état et de l’évolution des systèmesqu’ils pilotent et d’identifier les tendances qui les influenceront sur un horizon cohérent avecla nature de leurs fonctions » [Bouquin, 2003]. Cette forme de restitution a la particularité de se limiter à l’essentiel, cest-à-dire lamise en évidence de l’état d’un indicateur par rapport à un objectif, tout en adoptant unereprésentation graphique de l’information. e. Data Mining : Au sens littéral du terme, le Data Mining signifie le forage de données. Le but de ceforage est d’extraire de la matière brute qui, dans notre cas, représente de nouvellesconnaissances. L’idée de départ veut qu’il existe dans toute entreprise des connaissancesutiles, cachées sous des gisements de données. Le Data Mining permet donc, grâce à uncertain nombre de techniques, de découvrir ces connaissances en faisant apparaître descorrélations entre ces données. Le Data Warehouse constituera alors la première source de données sur laquelles’exécutera le processus de découverte de connaissances. Dans la majeure partie du temps,l’entrepôt de données représente un pré requis indispensable à toute fouille de données. Le recours à ce genre de méthode est de plus en plus utilisé dans les entreprisesmodernes. Les applications et outils implémentant ces solutions sont rarement développés eninterne. En effet, les entreprises préfèrent se reposer sur des valeurs sûres du marché afind’exploiter au plus vite les données en leur possession. 41
  50. 50. IV.4 Maintenance et expansion La mise en service du Data Warehouse ne signifie pas la fin du projet, car un projetData Warehouse nécessite un suivi constant compte tenu des besoins d’optimisation deperformance et ou d’expansion. Il est donc nécessaire d’investir dans les domaines suivants[Kimball, 2002] : Support : assurer un support aux utilisateurs pour leur faire apprécier l’utilisation del’entrepôt de données. En outre, la relation directe avec les utilisateurs permet de détecter lescorrectifs nécessaires à apporter. Formation : il est indispensable d’offrir un programme de formation permanant auxutilisateurs de l’entrepôt de données. Support technique : un entrepôt de données est considéré comme un environnementde production. Naturellement le support technique doit surveiller avec la plus grande vigilanceles performances et les tendances en ce qui concerne la charge du système. Management de l’évolution : il faut toujours s’assurer que l’implémentation répondaux besoins de l’entreprise. Les revues systématiques à certain point de contrôle sont un outilclé pour détecter et définir les possibilités d’amélioration. En plus du suivi et de lamaintenance du Data Warehouse, des demandes d’expansion sont envisageables pour denouveaux besoins, de nouvelles données ou pour des améliorations. Ces travaux d’expansion sont à prévoir de façon à faciliter l’évolution du schéma duData Warehouse. 42
  51. 51. V. Conclusion Le concept « Data Warehouse » est apparu comme une réponse à des besoinsgrandissants dans le domaine décisionnel. Son adaptabilité et sa capacité de fournir lesdonnées nécessaires à une bonne analyse, ont fait de lui un atout majeur et incontournablepour toute entreprise soucieuse du suivi de ces performances. Afin de mettre en place ce genre de système, il est nécessaire de choisir et d’adopterune démarche précise qui doit tenir compte des réalités de l’entreprise et des contraintes duprojet. La modélisation de l’entrepôt se fait dans tous les cas grâce à la modélisationdimensionnelle. L’alimentation en données constitue l’étape à laquelle il faut accorder le plusd’attention et de temps. En effet, elle est le garant de contenance de l’entrepôt en donnéesfiables et correctes. Une fois l’alimentation terminée, l’exploitation des données peut alors sefaire par différentes méthodes. L’utilisation d’outil OLAP reste, cependant, l’aspect le plusintéressant dans cette exploitation permettant la navigation dans les données de l’entrepôt à lademande. Au cours de la seconde partie de cette étude, nous allons essayer d’utiliser lesconcepts présentés dans la synthèse bibliographique, et cela afin de mettre en œuvre notresystème. 43
  52. 52. Partie II : Cas pratique « filiales de distribution SONELGAZ » 44
  53. 53. Chapitre I : Présentation de l’organisme d’accueil. 45

×