SlideShare a Scribd company logo
1 of 74
Download to read offline
Institut National des Sciences Appliquées et de Technologie

Business Intelligence
Chp3 – Modélisation des Données Décisionnelles

Dr. Lilia SFAXI
GL5 - 2013-2014

1
Modélisation des Données
Décisionnelles


Utilisation de concepts pour :
o

Optimiser la restitution de données selon les axes métiers de l’entreprise

o

Gérer et visualiser les données de manière rapide et intuitive

o

Retrouver et analyser rapidement les données à partir de diverses sources

o

Intégrer plusieurs bases de données

o



2

Extraire, grouper, organiser et corréler et transformer les données

Deux types de modélisations: Entité-Relation et Multidimensionnelle

Business Intelligence

27/02/2014
Modèles de Données

Business Intelligence

3

27/02/2014
4

Plan du Chapitre


Modélisation Entité-Relation



Modélisation Multidimensionnelle



Conception des Data Warehouses : Etapes et Exemple



Modèles d’un Data Warehouse



Aspects Fondamentaux de la Modélisation Multidimensionnelle

Business Intelligence

27/02/2014
5

Modélisation
Entité-Relation

Business Intelligence

CHP3: MODÉLISATION DES
DONNÉES DÉCISIONNELLES

27/02/2014
6

Modélisation Entité-Relation


Discipline permettant d’éclairer les relations microscopiques entre les données
o
o

Simplifier le traitement des transactions

o



Supprimer la redondance des données
Aider le concepteur dans la répartition des propriétés entre les entités

Principes
o

Notion d’identifiant

o

Dépendance fonctionnelle

o

Décomposition

o

Formes normales

Business Intelligence

27/02/2014
7

Normalisation dans les BDR


Forme normale :
o
o

Permet d’éviter les anomalies transactionnelles dues à une mauvaise modélisation des
données

o



Type de relation particulier entre les entités

Permet de vérifier la robustesse de la conception des modèles de données pour éviter les
problèmes de redondance et de mise à jour du contexte

Dans le modèle OLTP, il existe 8 formes normales
o

Elles s’emboitent les unes dans les autres

o

Le respect d’une FN de niveau supérieur implique le respect des FN des niveaux inférieurs

o

On va présenter les 3 premières (les plus utilisées)

Business Intelligence

27/02/2014
8

Première Forme Normale (1FN)


Relation dont tous les attributs :
o

Contiennent une valeur scalaire (les valeurs ne peuvent pas être divisées en plusieurs sousvaleurs dépendant également individuellement de la clé primaire)

o

Contiennent des valeurs non répétitives (le cas contraire consiste à mettre une liste dans un
seul attribut).

o

Sont constants dans le temps (utiliser par exemple la date de naissance plutôt que l'âge).

Problème
Produit
Téléviseur

Solution
Fournisseur

Fournisseur

Téléviseur

Vidéo SA

Téléviseur
Business Intelligence

Vidéo SA, Hitek LTD

Produit

Hitek LTD
27/02/2014
9

Deuxième Forme Normale (2FN)


Les attributs d'une relation sont divisés en deux groupes :
o
o



Le premier groupe est composé de la clé (une ou plusieurs).
Le deuxième groupe est composé des autres attributs (éventuellement vides).

Tout attribut du deuxième groupe ne peut pas dépendre que d'un sous-ensemble
(strict) d'attribut(s) du premier groupe.
o

« Un attribut non clé ne dépend pas que d'une partie de la clé »

Problème
Pdt

Fournisseur

Solution
Adresse
Fournisseur

Produit

Fournisseur

Fournisseur

Adresse

Télé

Vidéo SA

13 rue Midi

Télé

Vidéo SA

Vidéo SA

13 rue Midi

Ecran

Vidéo SA

13 rue Midi

Ecran

Vidéo SA

Hitek LTD

25 rue Bond

Télé

Hitek LTD

25 rue Bond

Télé

Hitek LTD
27/02/2014
10

Troisième Forme Normale (3FN)


Les attributs d'une relation sont divisés en deux groupes :
o
o



Le premier groupe est composé de la clé (une ou plusieurs).
Le deuxième groupe est composé des autres attributs (éventuellement vides).

Tout attribut du deuxième groupe ne peut pas dépendre que d'un sous-ensemble
(strict) d'attribut(s) du deuxième groupe.
o

« Un attribut non clé ne dépend pas d'un ou plusieurs attributs ne participant pas à la clé ».

Problème
Fournisse
ur

Adresse

Vidéo SA

13 rue Midi

Paris

Hitek LTD

25 rue
Bond

London

Business Intelligence

Ville

Solution
Pays

Fournisse
ur

Adresse

Ville

France

Vidéo SA

13 rue Midi

Paris

England

Hitek LTD

25 rue
Bond

London

Ville

Pays

Paris

France

London

England

27/02/2014
11

Modélisation Entité-Relation


Le succès du traitement des transactions dans les BDR est essentiellement dû à
l’apport de la modélisation entité/relation



Exemple
o

simple recherche dans une table principale d'adresses clients.

une

o

Cette recherche est contrôlée par une clé d'adresse client, qui définit l'unicité de
l'enregistrement et permet une recherche indexée extrêmement rapide.

o

Le respect des formes normales fait que cette mise à jour soit faite en une itération, sans
risque d’oublier des enregistrements

Business Intelligence

27/02/2014
12

Limites de la Modélisation E/R


Modèle complexe
o

Plusieurs tables et jointures mises en œuvre




Pas de compréhension pour l’utilisateur



Données historiques difficilement représentées



Business Intelligence

Risque de dégradation des performances

Contraire aux objectifs du DW

27/02/2014
13

Modélisation
Multidimensionn
elle

Business Intelligence

CHP3: MODÉLISATION DES
DONNÉES DÉCISIONNELLES

27/02/2014
Modélisation Multidimensionnelle :
Notions de Base

14



Méthode de conception logique qui vise à présenter les données sous une forme
standardisée, intuitive et qui permet des accès hautement performants



Permet de considérer un sujet analysé comme point dans un espace à plusieurs
dimensions



Les données sont organisées de manière à mettre en évidence:
o

Le Sujet



Le Fait

o

Les perspectives de l’analyse



La table des dimensions

Business Intelligence

27/02/2014
15

Faits – Table des Faits


Fait
o
o

Grain de mesure de l’activité

o

Résultat d’une opération d’agrégation des données

o

Exemple: Chiffre d’affaires, nombre de vente, gain, nombre de transaction… en général : une
valeur numérique

o



Sujet d’analyse

Les mesures sont stockées dans la table des faits

Table des faits
o

Clé composite référencent des clés primaires des tables de dimensions

o

Contient les valeurs des mesures et des clefs vers les tables de dimensions  traduit une relation
(n,m) entre les dimensions

o

Plusieurs tables de fait dans un DW

o

Les faits les plus utiles d’une table des faits sont numériques et additifs

Business Intelligence

27/02/2014
16

Faits – Table des Faits


Exemple:
o



Fait: Montant des ventes, chaque jour pour chaque produit dans chaque magasin

A en général plusieurs lignes et peu de colonnes

Date

Dimensions
Produit

Business Intelligence

Ventes Journalières
Clé Date
Clé Produit
Clé Magasin
Quantité vendue
Montant des ventes

Table des Faits
Magasin

Faits

27/02/2014
17

Table des Dimensions


Contient une clé primaire unique qui correspond à l’un des
composants de la clé multiple de la table des faits



Les tables dimensionnelles sont les points d’entrée de
l’entrepôt de données



Les dimensions
o
o

En général sous forme textuelle

o



Thème (ou axe) selon lequel les données sont analysées
Parfois discrète (ensemble limité de valeurs): couleurs, parfums

A en général plusieurs colonnes et peu de lignes

Business Intelligence

Produit
Clé Produit
Description produit
Description marque
Description catégorie
Description type emballage
Taille emballage
Poids
Unité de mesure du poids
Type de stockage
Type de durée rayon
Largeur sur étagère
Hauteur sur étagère
Profondeur sur étagère

27/02/2014
18

Vue


Représentation d’une ou plusieurs requêtes de l’utilisateur du SID
o
o



À une requête correspond une et une seule vue
À une vue peuvent correspondre plusieurs requêtes

Une vue correspond également à un hyper-cube dont :
o

Chaque dimension est décrite par une entité dont le contenu est décrit par l’association de ces entités

o

Les propriétés de l’association sont des faits ou mesures

o

Les propriétés des entités intervenant dans la vue sont des conditions



Les combinaisons des conditions sont les coordonnées qui déterminent des valeurs de faits, comme
une combinaison de valeurs numériques peut déterminer la position d’un point dans l’espace



Un fait n’est pas seulement un élément du résultat de la requête, mais il doit être déterminé par
l’association des conditions

Business Intelligence

27/02/2014
19

Vue


Exemple 1:
o

Requête: Quels sont les frais de déplacement et le kilométrage des commerciaux de la
région nord ayant des véhicules de 10 à 14 CV en avril 2004?

o

Vue:

Faits




Kilométrage



Par Employé (fonction)



Par Véhicule (puissance)



Par Région

Véhicule



Business Intelligence

Frais de déplacement

Par Mois

Marque
Puissance

Employé
Nom
Fonction

Clé Employé
Clé Véhicule
Clé Région
Clé Mois
Frais de déplacement
Kilométrage

Région

Mois

27/02/2014
20

Vue



Exemple 2:
o

Requête: Quelles ont été les marges sur les ventes du produit ‘P023’ pour le client Ben Salah
Ahmed à Hammamet durant le mois de Janvier?

o

Vue:

Client
Nom
Fonction




Produit



Client



Région

Produit



Business Intelligence

Marge

Mois

Région

Nom

Vue 1
Marge

Mois

27/02/2014
21

Vue



Exemple 3:
o

Requête: Quels ont été les revenus sur les ventes de la marque ‘Teams’ en Tunisie durant
l’année 2011?
Marque

o

Vue:



Pays



Business Intelligence

Marque



Vue 2

Revenu

Année

Pays

Année

Revenu

27/02/2014
22

Vue



Exemple 4:
o

Requête: Quels ont été les quantités vendues de la gamme ‘G006’ durant le Trimestre 2
pour la région du nord ?
Gamme

o

Vue:



Trimestre



Business Intelligence

Gamme



Vue 3

Quantité

Région

Région

Trimestre

Quantité

27/02/2014
23

Domaine et Contexte


Domaine
o
o



Concerne un utilisateur ou un ensemble cohérent d’utilisateurs
Implique un vocabulaire commun et une manière commune d’appréhender l’information

Contexte
o

Ensemble de faits et dimensions assemblées selon des critères sémantiques formels de
cohérence

o

Caractérisé par une association unique, groupant tous les faits relevés dans les vues

Business Intelligence

27/02/2014
24

Contexte : Activité des Ventes


En opérant une relation superficielle entre les trois vues des exemples 2, 3 et 4, on
détecte deux sortes d’éléments de rapprochement
o

Certaines informations (entités ou faits) se retrouvent dans plusieurs vues

o

Certaines entités, appartenant à des vues différentes, sont fonctionnellement liées les unes
aux autres.

o

On peut intégrer ces vues en un seul contexte comportant une association porteuse des
faits: Marge, Revenu, Quantité, qui comporte neuf entités distinctes

Business Intelligence

27/02/2014
25

Contexte : Activité des Ventes


Contexte : Activité des Ventes

Client

Région
Année

Vue 1
Marge

Produit

Trimestre

Mois

Vue 2

Année
Produit

Revenu

Pays

Marge
Revenu
Quantité

Région

Gamme

Gamme

Vue 3
Région

Client

Mois

Marque

Trimestre

Pays

Marque

Quantité
27/02/2014
26

Hiérarchie


Élément fondamental dans la structure d’un contexte



Représente pour l’utilisateur des chemins de consolidation d’indicateurs (faits)



Chaque niveau est représenté par une entité



Certaines entités sont rattachées à d’autres par des liens d’appartenance ou de
regroupement hiérarchique



Certains de ces chemins sont connus (Jour, Mois, Année), d’autres doivent être
repérés par une analyse précise du vocabulaire des utilisateurs
(Produit, Gamme, Marque)

Business Intelligence

27/02/2014
27

Hiérarchie : Activité des Ventes
…
…
…

…
Business Intelligence

Mois

Trimestre

Année

Produit

Gamme

Marque

Région

Pays

Client

Catégorie

Temps

Produit

Territoire

Client
27/02/2014
28

Granularité


Le « grain » d’une dimension est le niveau de sélection le plus fin possible de cette
dimension
o

Le grain de la dimension Temps est Mois

o

Le grain de la dimension Territoire est Région



L’intégration de chaque nouvelle vue est donc susceptible de modifier le grain sur
une ou plusieurs dimensions



Le grain d’un contexte découle de la combinaison des grains de toutes les
dimensions. Il définit le niveau de détail pouvant être obtenu par la requête la plus
sélective et la plus fine possible mettant en jeu toutes les dimensions.

Business Intelligence

27/02/2014
29

Granularité (Exemple)


Grain du contexte: combinaison Produit-Mois-Client-Région
o



S’applique à tous les faits

Règle: Tous les faits d’un contexte doivent être définis pour le grain de ce contexte
o

Si les 3 indicateurs marge, revenu et quantité sont dans le contexte, alors ils ont un sens à
tous les niveaux.

o

Exemple: si la marge n’est définie que par Pays et par Mois, alors que les autres le sont par
Région et par Trimestre, il y aurait décalage de grain entre les faits

o

Décalage  les faits n’appartiennent pas tous au même contexte  facteur
d’incohérence

Business Intelligence

27/02/2014
30

Grain du contexte Vente
Temps
Année

Client
Trimestre

Catégorie
Mois

Produit
Gamme

Produit
Région
Mois
Client
Marge
Revenu
Quantité

Client

Région
Pays

Marque

Territoire
Produit
Business Intelligence

27/02/2014
Modélisation Multidimensionnelle:
Caractéristiques


Lisibilité



Performances (chargement + exécution des requêtes)



Évolutivité



31

Redondances envisageables
o
o

Pas de problème d’intégrité des données (contrôles à l’acquisition)

o



Pas de mise à jour en ligne (chargement uniquement)
Privilégier l’accessibilité plutôt que la normalisation

Requêtes ensemblistes, portant sur de gros volumes de données
o
o

Adaptation du modèle pour des requêtes ad-hoc

o



Projections, restrictions, regroupements, agrégations
Techniques d’optimisation basées sur les chemins d’accès

Pré-calcul de certains agrégats + dé-normalisation

Business Intelligence

27/02/2014
Modélisation Multidimensionnelle:
Avantages


Structure prévisible et standardisée



Diminution du nombre de tables et de jointures



32

Modèle évolutif qui peut être modifié sans peine
o

Ajout de nouveaux faits non prévus initialement, à partir du moment où ils sont cohérents
avec la granularité de la table des faits existante

o

Ajout de nouvelles dimensions, à partir du moment où une seule valeur de la dimension est
définie pour chaque enregistrement factuel existant

o

Ajout d’attributs dimensionnels nouveaux

o

Changement de granularité: Décomposition des enregistrements d’une dimension
existante en un niveau de détail plus fin à partir d’une date déterminée

Business Intelligence

27/02/2014
Modélisation Multidimensionnelle:
Inconvénients



Tables plus volumineuses



33

Fréquence d’accès très variable aux contenus des tables

Business Intelligence

27/02/2014
Règles d’Élaboration et d’Intégration
des Vues

34



La structure des vues externes se déduit directement des requêtes des
utilisateurs, non des connexions possibles entre les entités



Dans un domaine, il existe un ou plusieurs sous-ensembles de vues liées entre elles
par des critères de cohérence sémantique et structurelles.  Contextes



La liste exhaustive des vues n’est jamais figée



La normalisation du MDD permet d’anticiper et d’intégrer automatiquement dans
chaque contexte le plus grand nombre possible de vues probables d’après la
structure vue connues.



Entre deux entités intervenant dans une vue, il doit exister un et un seul chemin de
navigation sémantique et ce chemin doit être le plus court possible

Business Intelligence

27/02/2014
Démarche de Synthèse des VuesContextes


Identifier les faits de l’association



Identifier les liens de dépendance entre les entités



Regrouper les entités dépendantes dans une même dimension



35

Nommer les dimensions
o

Les dimensions pour lesquelles on trouve facilement un nom sont dites « Dimensions fortes »

o

Celles pour lesquelles on doute du nom associé sont dites « Dimensions douteuses »


Business Intelligence

La structure d’une dimension douteuse peut varier à terme

27/02/2014
36

Normalisation des Contextes


Un contexte regroupant un nombre élevé de dimensions a peu de chances de
correspondre à une réalité et serait d’un maniement trop complexe
o
o



En général, le nombre de dimensions d’un contexte varie entre 4 et 12 dimensions
Au delà de ce nombre, la probabilité de redondance dimensionnelle devient de plus en
plus importante

Un contexte est dit cohérent lorsque toutes les vues qu’il autorise ont une signification
dans le domaine de l’utilisateur

Business Intelligence

27/02/2014
37

Règles de Normalisation
Dimensionnelle


Règle 1:
o
o



Il ne doit pas y avoir de dépendance fonctionnelle entre deux entités appartenant à des
dimensions différentes d’un même contexte
Conséquence: Regroupement des entités dépendantes dans une même dimension

Exemple: Si les produits sont organisés par région, on doit intégrer l’entité Région
dans la dimension Produit

Id_produit
Id_région
Id_mois
Id_client
Marge
Revenu
Quantité
Business Intelligence

Produit
Id_produit

Région

Id_produit
Id_mois
Id_client
Marge
Revenu
Quantité

Produit
Id_produit
région

27/02/2014
38

Règles de Normalisation
Dimensionnelle


Règle 2:
o

o



Tous les faits d’un contexte doivent être définis d’une manière cohérente pour toutes les
combinaisons dimensionnelles de ce contexte
Conséquence: Les faits qui ne sont valables que pour certaines dimensions nécessitent
l’éclatement du contexte

Exemple:

Mois

Client

Business Intelligence

Id_produit
Id_région
Id_mois
Id_client
Marge_ventes
Marge_achats
Revenu
Quantité

Produit
Id_produit

Région

La marge des achats ne correspond
pas à un client et région. Il faut donc
l’intégrer dans un autre contexte

27/02/2014
39

Règles de Normalisation
Dimensionnelle


Règle 3:
o

Tous les faits d’un contexte doivent être définis pour le grain de ce contexte





Le grain d’un contexte découle de la combinaison des grains de toutes les dimensions
Le grain d’une dimension est le niveau de sélection le plus fin possible de cette dimension

Règle 4:
o

Le graphe de chaque dimension doit être acyclique

o

Conséquence: Il faut rompre les cycles
Gamme

Gamme

Marque

Produit

Région

Pays

Pays

Produit

Id_produit

Marque

Id_produit

Région
Business Intelligence

Pays

27/02/2014
40

Forme Dimensionnelle Normale


Le MDD correspond à un domaine qui se présente sous forme d’une constellation ou
galaxie dans laquelle chaque étoile correspond à un contexte



Une même entité ou un même fait peut appartenir à plus d’un contexte, à condition
de conserver une définition unique



Pour ces raisons pratiques, il est préférable de représenter les contextes sous une
forme déconnectée

Business Intelligence

27/02/2014
41

Modèles d’un
Data
Warehouse

Business Intelligence

CHP3: MODÉLISATION DES
DONNÉES DÉCISIONNELLES

27/02/2014
42

Modèles d’un DataWarehouse



Modèle en étoile



Modèle en flocon de neige



Modèle en constellation

Business Intelligence

27/02/2014
43

Modèle Étoile


Une (ou plusieurs) table(s) de faits comprenant une ou plusieurs mesures



Plusieurs tables de dimension dé-normalisées: descripteurs des dimensions.



Les tables de dimension n'ont pas de lien entre elles.



Avantages
o
o

Performances : nombre de jointures limité ; gestion des données creuses.

o



Facilité de navigation.
Gestion des agrégats

Inconvénients
o

Redondances dans les dimensions.

o

Alimentation complexe..

Business Intelligence

27/02/2014
44

Modèle en Étoile - Exemple
Produit
Code_pdt
Description
Couleur
Marque
Créateur

Période
Code_per
Année
Trimestre
Mois
Jour

Business Intelligence

Ventes
Code_produit
Code_période
Code_Magasin
Unités_vendues
Montant_ventes
Montant_coût

Magasin
Code_ma
g
Nom_mag
Ville
Téléphone
Manager

27/02/2014
45

Modèle en Flocon de Neige


Dérivé du schéma en étoile où les tables de dimensions sont normalisées
o

La table des faits reste inchangée



Chacune des dimensions est décomposée selon sa (ou ses) hiérarchie(s)



Exemple : Commune, Département, Région, Pays, Continent



Utilisé lorsque les tables sont très volumineuses



Avantages
o
o



Réduction du volume
Permettre des analyses par pallier (drill down) sur la dimension hiérarchisée

Inconvénients
o

Navigation difficile

o

Nombreuses jointures

Business Intelligence

27/02/2014
46

Modèle en Flocon de Neige - Exemple
Marque
Code_marque
Nom
Description
Créateur

Produit
Code_pdt
Description
Couleur
Code_marque

Période
Code_per
Année
Trimestre
Mois
Jour
Business Intelligence

Ventes
Code_produit
Code_période
Code_Magasin
Unités_vendues
Montant_ventes
Montant_coût

Magasin
Code_ma
g
Nom_mag
Ville
Téléphone
Manager

27/02/2014
47

Constellation



Fusionner plusieurs modèles en étoile qui utilisent des dimensions communes



Un modèle en constellation comprend donc :
o

Plusieurs tables de faits

o

Des tables de dimensions communes ou non à ces tables de faits.

Business Intelligence

27/02/2014
48

Modèle en Constellation - Exemple

Produit

Fournisseur
Code_four
Nom
Adresse
Catégorie

Achats
Code_produit
Code_période
Code_fournisseur
Unités_achetées
Montant_achats
Montant_remises

Business Intelligence

Code_pdt
Description
Couleur
Marque
Créateur

Période
Code_per
Année
Trimestre
Mois
Jour

Ventes
Code_produit
Code_période
Code_Magasin
Unités_vendues
Montant_ventes
Montant_coût

Magasin
Code_ma
g
Nom_mag
Ville
Téléphone
Manager

27/02/2014
49

Synthèse


Modèle en étoile
o



Modèle en flocon de neige
o



Taille de dimension plus grosse

Jointures pour reconstruire

Modèle en étoile >> Modèle en flocon
o

Business Intelligence

car tables de dimension << tables de fait

27/02/2014
50

Aspects
Fondamentaux
de la
Modélisation
MultiDimensionn
elle
Business Intelligence

CHP3: MODÉLISATION DES
DONNÉES DÉCISIONNELLES

27/02/2014
51

Dimension


Une dimension peut être définie comme :
o

un thème, ou un axe (attributs), selon lequel les données

seront analysées.



Ex : Temps, Découpage administratif, Produits.



Une dimension contient des membres organisés en hiérarchie :
o

Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité)
particulier

o

Ex : pour la dimension Temps: année –semestre – mois – jour

Business Intelligence

27/02/2014
52

Dimensions - Caractéristiques


Dimension
o



Temps, Produit, Géographie, ...

Niveau : hiérarchisation des dimensions
o

o

Produit : Rayon, Catégorie, Nature,...

o



Temps : Année, Semestre, Trimestre, Mois, Semaine, ...
Géographie : Région, Département, Ville, Magasin, …

Membres d'un Niveau
o
o

Produit::

gorie

: Frais.Laitage, ... , Liquide.Jus

o



Produit::Rayon
Produit::

gorie.Nature

: Frais.Laitage.Yaourt, ... , Liquide.Jus.Orange

Cellule
o



: Frais, Surgelé, ... , Liquide

Intersection des membres des différentes dimensions

Formule
o

calcul, expression, règle, croisement des dimensions


Business Intelligence

Somme(Qte), Somme(Qte*PrixVente), Moyenne(Qte*(PrixVente-PrixAchat)), ...
27/02/2014
53

Faits


Une mesure est un élément de donnée sur lequel portent les analyses, en fonction
des différentes dimensions
o

Ex : coût des travaux, nombre d’accidents, ventes



Un fait représente la valeur d’une mesure, mesurée ou calculée, selon un membre
de chacune des dimensions



Exemple :
o

Business Intelligence

« 250 000 euros » est un fait qui exprime la valeur de la mesure « coût des travaux » pour le
membre « 2002 » du niveau année de la dimension « temps » et le membre « Versailles » du
niveau « ville » de la dimension « découpage administratif »

27/02/2014
54

Faits – Table des Faits


Fait additif :
o
o



Additionnable suivant toutes les dimensions
Exemples: quantité vendue, chiffre d’affaire, coût

Fait semi-additif :
o
o



Additionnable selon certaines dimensions
Exemples: Niveau de stock (excepté sur la dimension temps), Nombre de transactions, de clients
(excepté sur la dimension produit)

Fait non-additif :
o

Non additionnable

o

Exemple: attribut ratio (marge brute = 1- Coût/CA)

Business Intelligence

27/02/2014
55

Dimension Temps
tout entrepôt




Reliée

toute table de fait



2 choix d ’implantation
o

Type SQL DATE

o

Calendrier + Table Temps


Informations supplémentaires



Jours fériés, vacances, période fiscale,



Business Intelligence

Évènement (match de finale de coupe du monde)

saison haute ou basse, …

27/02/2014
56

Opérations OLAP


Drill Up / Drill Down



Rotate



Slicing



Scoping

Business Intelligence

27/02/2014
57

Opérations OLAP - Drill Up/Drill Down

Business Intelligence

27/02/2014
58

Opérations OLAP - Rotate

Business Intelligence

27/02/2014
59

Opérations OLAP - Slicing

Business Intelligence

27/02/2014
60

Opérations OLAP - Scoping

Business Intelligence

27/02/2014
61

Stockage



ROLAP

:

Relational OLAP



MOLAP

:

Multi-Dimentional OLAP



HOLAP

:

Hybrid OLAP



DOLAP

:

Desktop OLAP

Business Intelligence

27/02/2014
62

ROLAP (Relational OLAP)


OLAP relationnel



Données obtenues à partir de tables relationnelles et de jointures entre celles-ci



En fonction de la granularité, la requête générée est plus ou moins complexe



A chaque consultation, la requête est recalculée
o

Les résultats ne sont pas stockés



Langage : SQL



Avantages
o



Faible coût (car tire partie des ressources existantes)

Inconvénients
o

Business Intelligence

Temps de réponse long car sollicitation de la base à chaque relance d’un rapport

27/02/2014
63

MOLAP (Multi-Dimentional OLAP)


OLAP multi-dimentionnel



Données stockées dans une base de données multi-dimentionnelle appelée CUBE
o

Exemple : Essbase…



Plus de relationnel!



Tous les croisements possibles sont précalculés
o

Restitution des données instantanée



Langage : MDX



Avantages
o



Temps de réponse très court (toutes les données et résultats sont stockés)

Inconvénients
o

Coût élevé des licences pour les bases multi-dimentionnelles

o

Coût élevé de développement des cubes

o

Difficile à mettre en place pour les gros volumes de données, à cause de tous les résultats précompilés

Business Intelligence

27/02/2014
64

HOLAP (Hybrid OLAP)


Association du ROLAP et du MOLAP



Concept de Drill-Through
o
o



Accès aux données agrégées avec MOLAP (Cube)
Accès aux détails avec le ROLAP (tables relationnelles)

Étapes :
o

Données agrégées stockées dans une table multi-dimentionnelle

o

Restitution de ces données à partir d’un outil de reporting





Affichage des données agrégées extraites à partir des tables multi-dimentionnelles
Affichage des détails des opérations issus des bases relationnelles

Avantages
o
o



Temps de réponse assez court
Moins coûteux que MOLAP car moins de développement

Inconvénients
o

Business Intelligence

Ne pourra pas être utilisé si les rapports sont trop complexes et font trop de croisements de données
27/02/2014
65

DOLAP (Desktop OLAP)



Ce n’est pas une technologie de stockage, mais un mode de fonctionnement.



Base de donnée OLAP limitée en taille



Permet à l’utilisateur d’enregistrer une partie de la base de données multidimentionnelle en local

Business Intelligence

27/02/2014
66

H-OLAP


Nouvelles fonctions pour SQL
o

BREAK BY (SAS)

o

RANK

o

TOP / BOTTOM : Requête de type « Top Ten » (les dix meilleurs, les dix moins bons)

o

Extension du Group By (SQL99)

un agrégat




Rollup: réduire progressivement





Grouping Sets : Partitionnement selon plusieurs dimensions
Cube : Partitionnement selon tous les sous-ensembles possibles de Grouping Sets

MS MDX
o

Langage d’expression OLAP pour MS SQL Server

o

Exemples


Business Intelligence

SELECT NON EMPTY {[Time].[1997], [Time].[1998]} ON COLUMNS, [Promotion Media].[Media Type].Members
ON ROWS FROM Sales
27/02/2014
67

Conception
d’un Data
Warehouse:
Étapes et
Exemples
Business Intelligence

CHP3: MODÉLISATION DES
DONNÉES DÉCISIONNELLES

27/02/2014
68

Conception d’un Data Warehouse


Étape 1
o



Choisir le processus à modéliser

Étape 2
o

Choisir le grain des faits

o

Décider de ce que représente une ligne de la table de faits




Étape 3
o

Identifier les dimensions qui s’appliquent aux lignes de la table des faits




Niveau de détail : transactions individuelles, récapitulatifs journaliers, mensuels…

Typiquement le temps, le client, le foyer, le produit, magasin, agence, compte…

Étape 4
o

Identifier les mesures de fait qui renseignent la table de faits


Business Intelligence

De préférence des quantités numériques additives

27/02/2014
Conception d’un Data Warehouse
Exemple : La Distribution


Processus :
o

Comprendre les achats des clients saisis aux Terminaux Points de Vente (TPV)

o



69

Modéliser les ventes au niveau des TPV

Etape 1 : Le premier modèle dimensionnel
o

Doit répondre aux questions les plus pressantes de l’utilisateur

o

Ses données doivent être les plus faciles à extraire

o

 Quels produits se vendent dans quel magasin, à quel prix, quand, dans quelles
conditions de promotion?

Business Intelligence

27/02/2014
Conception d’un Data Warehouse
Exemple : La Distribution



70

Etape 2 :
o

Quel niveau de détail doit être disponible dans le modèle?

o

Principe: Obtenir un schéma basé sur les données les plus atomiques

o

 Donnée atomique : une ligne individuelle de transaction saisie sur un TPV pour mieux
anticiper les requêtes ad-hoc des utilisateurs

Business Intelligence

27/02/2014
Conception d’un Data Warehouse
Exemple : La Distribution


71

Etape 3 :
o
o

Principe: l’énoncé précis du grain détermine les dimensions principales

o



Choix des dimensions
Les dimensions supplémentaires qui peuvent être ajoutées doivent prendre une valeur unique
pour chaque combinaison de valeurs des dimensions principales

Dimensions principales
o

Temps

o

Produit

o

Promotion

Date

Magasin

o

Faits de Transaction TPV
Clé Date
Attributs

Produit
Clé Produit
Attributs

Business Intelligence

Clé date
Clé Produit
Clé Magasin
Clé Promotion
…

Magasin
Clé magasin
Attributs

Promotion
Clé Promo
Attributs
27/02/2014
72

Conception d’un Data Warehouse
Exemple : La Distribution
Produit



Clé Produit
Description produit
Etape 3 (Suite):
Description marque
Description catégorie
o Dimension Produit
Description type emballage
 Attributs obtenus à partir du fichier Produits de l’application opérationnelle Taille emballage
Poids
Unité de mesure du poids
Type de stockage
Type de durée rayon
Largeur sur étagère
Hauteur sur étagère
Profondeur sur étagère
…

Business Intelligence

27/02/2014
Conception d’un Data Warehouse
Exemple : La Distribution


73

Etape 4 : Identifier les faits
o

Quantité vendue, montant de la vente en euros, coût standard en euro

o

Questions: stocker le bénéfice? La marge brute?

o

Principe: pourcentage et ratios sont non-additifs  Ne pas les stocker, mais stocker le numérateur et
dénominateur

Faits de Transaction TPV
Date
Clé Date
Attributs

Produit
Clé Produit
Attributs
Business Intelligence

Magasin

Clé date
Clé Produit
Clé Magasin
Clé Promotion
Numéro de trans. TPV
Quantité vendue
Montant des ventes
Coût
Bénéfice Brut

Clé magasin
Attributs

Promotion
Clé Promo
Attributs

27/02/2014
74

Bibliographie


Supports de Cours
o

Karima Tekaya – « Informatique Décisionnelle » - INSAT

o

Fatma Baklouti – « Les entrepôts de données (Data Warehouses) » - INSAT

o

Didier Donsez – « Conception de Bases Décisionnelles » - Université Joseph Fourier

o

E. Grislin-Le Strugeon – «
mes d’information
Mining) » - Université de Valenciennes

Business Intelligence

cisionnels (Data Warehouse / Data

27/02/2014

More Related Content

What's hot

Business Intelligence
Business IntelligenceBusiness Intelligence
Business IntelligenceLilia Sfaxi
 
Intégration des données avec Talend ETL
Intégration des données avec Talend ETLIntégration des données avec Talend ETL
Intégration des données avec Talend ETLLilia Sfaxi
 
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?Jean-Marc Dupont
 
PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPTriyadadva
 
Chapitre 1 les entrepôts de données
Chapitre 1 les entrepôts de donnéesChapitre 1 les entrepôts de données
Chapitre 1 les entrepôts de donnéesMohamed Mkaouar
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseAbderrahmane Filali
 
Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehousekhlifi z
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BISaid Sadik
 
Projet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des donnéesProjet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des donnéesJean-Marc Dupont
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesJean-Marc Dupont
 
Projet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsProjet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsJean-Marc Dupont
 
La Business Intelligence
La Business Intelligence La Business Intelligence
La Business Intelligence Khchaf Mouna
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence Yassine Badri
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQLLilia Sfaxi
 

What's hot (20)

Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Intégration des données avec Talend ETL
Intégration des données avec Talend ETLIntégration des données avec Talend ETL
Intégration des données avec Talend ETL
 
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
 
PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPT
 
Chapitre 1 les entrepôts de données
Chapitre 1 les entrepôts de donnéesChapitre 1 les entrepôts de données
Chapitre 1 les entrepôts de données
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
 
Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehouse
 
Business intelligence
Business intelligenceBusiness intelligence
Business intelligence
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BI
 
Partie2BI-DW2019
Partie2BI-DW2019Partie2BI-DW2019
Partie2BI-DW2019
 
Projet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des donnéesProjet Bi - 3 - Alimentation des données
Projet Bi - 3 - Alimentation des données
 
Les outils OLAP
Les outils OLAPLes outils OLAP
Les outils OLAP
 
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de donnéesProjet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
 
Projet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsProjet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoins
 
La Business Intelligence
La Business Intelligence La Business Intelligence
La Business Intelligence
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence
 
Qu'est-ce qu'un ETL ?
Qu'est-ce qu'un ETL ?Qu'est-ce qu'un ETL ?
Qu'est-ce qu'un ETL ?
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 

Similar to Chp3 - Modélisation Multidimensionnelle

DeciLogic, les modélisations décisionnelles
DeciLogic, les modélisations décisionnellesDeciLogic, les modélisations décisionnelles
DeciLogic, les modélisations décisionnellesEric Mauvais
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationDenodo
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationDenodo
 
Optimiser l’intégration globale des données grâce à la Data Virtualization
Optimiser l’intégration globale des données grâce à la Data VirtualizationOptimiser l’intégration globale des données grâce à la Data Virtualization
Optimiser l’intégration globale des données grâce à la Data VirtualizationDenodo
 
Atelier comment choisir et déployer un erp - CCI Bordeaux et Prodware - 07 ...
Atelier   comment choisir et déployer un erp - CCI Bordeaux et Prodware - 07 ...Atelier   comment choisir et déployer un erp - CCI Bordeaux et Prodware - 07 ...
Atelier comment choisir et déployer un erp - CCI Bordeaux et Prodware - 07 ...polenumerique33
 
Comment accompagner la transformation de votre SI sans impacter les métiers ?
Comment accompagner la transformation de votre SI sans impacter les métiers ?Comment accompagner la transformation de votre SI sans impacter les métiers ?
Comment accompagner la transformation de votre SI sans impacter les métiers ?Denodo
 
Assurtech : Big Data & Plateformes
Assurtech : Big Data & PlateformesAssurtech : Big Data & Plateformes
Assurtech : Big Data & PlateformesSerrerom
 
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2CERTyou Formation
 
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2CERTyou Formation
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDenodo
 
cours base de données
cours base de donnéescours base de données
cours base de donnéesYassine Badri
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerMajdi Hannachi
 
Décisionnel Agile : les conditions du succès
Décisionnel Agile : les conditions du succèsDécisionnel Agile : les conditions du succès
Décisionnel Agile : les conditions du succèsJean-Michel Franco
 
Atelier Comment choisir et déployer un ERP dans une PME - Pôle numérique CCI ...
Atelier Comment choisir et déployer un ERP dans une PME - Pôle numérique CCI ...Atelier Comment choisir et déployer un ERP dans une PME - Pôle numérique CCI ...
Atelier Comment choisir et déployer un ERP dans une PME - Pôle numérique CCI ...echangeurba
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientDenodo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 

Similar to Chp3 - Modélisation Multidimensionnelle (20)

chap3.pdf
chap3.pdfchap3.pdf
chap3.pdf
 
DeciLogic, les modélisations décisionnelles
DeciLogic, les modélisations décisionnellesDeciLogic, les modélisations décisionnelles
DeciLogic, les modélisations décisionnelles
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
 
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data VirtualizationSession découverte de la Logical Data Fabric soutenue par la Data Virtualization
Session découverte de la Logical Data Fabric soutenue par la Data Virtualization
 
Optimiser l’intégration globale des données grâce à la Data Virtualization
Optimiser l’intégration globale des données grâce à la Data VirtualizationOptimiser l’intégration globale des données grâce à la Data Virtualization
Optimiser l’intégration globale des données grâce à la Data Virtualization
 
Soutenance_mi_parcours
Soutenance_mi_parcoursSoutenance_mi_parcours
Soutenance_mi_parcours
 
Atelier comment choisir et déployer un erp - CCI Bordeaux et Prodware - 07 ...
Atelier   comment choisir et déployer un erp - CCI Bordeaux et Prodware - 07 ...Atelier   comment choisir et déployer un erp - CCI Bordeaux et Prodware - 07 ...
Atelier comment choisir et déployer un erp - CCI Bordeaux et Prodware - 07 ...
 
Comment accompagner la transformation de votre SI sans impacter les métiers ?
Comment accompagner la transformation de votre SI sans impacter les métiers ?Comment accompagner la transformation de votre SI sans impacter les métiers ?
Comment accompagner la transformation de votre SI sans impacter les métiers ?
 
Assurtech : Big Data & Plateformes
Assurtech : Big Data & PlateformesAssurtech : Big Data & Plateformes
Assurtech : Big Data & Plateformes
 
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
 
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
B5270 g formation-essentials-for-ibm-cognos-bi-v10-2
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
cours base de données
cours base de donnéescours base de données
cours base de données
 
Modelisation conception SI
Modelisation conception SIModelisation conception SI
Modelisation conception SI
 
Data Science
Data ScienceData Science
Data Science
 
Apprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMinerApprentissage automatique avec RapidMiner
Apprentissage automatique avec RapidMiner
 
Décisionnel Agile : les conditions du succès
Décisionnel Agile : les conditions du succèsDécisionnel Agile : les conditions du succès
Décisionnel Agile : les conditions du succès
 
Atelier Comment choisir et déployer un ERP dans une PME - Pôle numérique CCI ...
Atelier Comment choisir et déployer un ERP dans une PME - Pôle numérique CCI ...Atelier Comment choisir et déployer un ERP dans une PME - Pôle numérique CCI ...
Atelier Comment choisir et déployer un ERP dans une PME - Pôle numérique CCI ...
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 

More from Lilia Sfaxi

chp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfchp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfLilia Sfaxi
 
Plan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfPlan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfLilia Sfaxi
 
Lab1-DB-Cassandra
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-CassandraLilia Sfaxi
 
TP2-UML-Correction
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-CorrectionLilia Sfaxi
 
TP1-UML-Correction
TP1-UML-CorrectionTP1-UML-Correction
TP1-UML-CorrectionLilia Sfaxi
 
TP0-UML-Correction
TP0-UML-CorrectionTP0-UML-Correction
TP0-UML-CorrectionLilia Sfaxi
 
TD4-UML-Correction
TD4-UML-CorrectionTD4-UML-Correction
TD4-UML-CorrectionLilia Sfaxi
 
TD3-UML-Séquences
TD3-UML-SéquencesTD3-UML-Séquences
TD3-UML-SéquencesLilia Sfaxi
 
TD3-UML-Correction
TD3-UML-CorrectionTD3-UML-Correction
TD3-UML-CorrectionLilia Sfaxi
 
TD2 - UML - Correction
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - CorrectionLilia Sfaxi
 
TD1-UML-correction
TD1-UML-correctionTD1-UML-correction
TD1-UML-correctionLilia Sfaxi
 
Android - Tp1 - installation et démarrage
Android - Tp1 -   installation et démarrageAndroid - Tp1 -   installation et démarrage
Android - Tp1 - installation et démarrageLilia Sfaxi
 
Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Lilia Sfaxi
 
Android - Tp3 - intents
Android - Tp3 -  intentsAndroid - Tp3 -  intents
Android - Tp3 - intentsLilia Sfaxi
 
Android - TPBonus - web services
Android - TPBonus - web servicesAndroid - TPBonus - web services
Android - TPBonus - web servicesLilia Sfaxi
 

More from Lilia Sfaxi (20)

chp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfchp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdf
 
Plan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfPlan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdf
 
Lab3-DB_Neo4j
Lab3-DB_Neo4jLab3-DB_Neo4j
Lab3-DB_Neo4j
 
Lab2-DB-Mongodb
Lab2-DB-MongodbLab2-DB-Mongodb
Lab2-DB-Mongodb
 
Lab1-DB-Cassandra
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-Cassandra
 
TP2-UML-Correction
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-Correction
 
TP1-UML-Correction
TP1-UML-CorrectionTP1-UML-Correction
TP1-UML-Correction
 
TP0-UML-Correction
TP0-UML-CorrectionTP0-UML-Correction
TP0-UML-Correction
 
TD4-UML
TD4-UMLTD4-UML
TD4-UML
 
TD4-UML-Correction
TD4-UML-CorrectionTD4-UML-Correction
TD4-UML-Correction
 
TD3-UML-Séquences
TD3-UML-SéquencesTD3-UML-Séquences
TD3-UML-Séquences
 
TD3-UML-Correction
TD3-UML-CorrectionTD3-UML-Correction
TD3-UML-Correction
 
TD2-UML-Classes
TD2-UML-ClassesTD2-UML-Classes
TD2-UML-Classes
 
TD2 - UML - Correction
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - Correction
 
TD1 - UML - DCU
TD1 - UML - DCUTD1 - UML - DCU
TD1 - UML - DCU
 
TD1-UML-correction
TD1-UML-correctionTD1-UML-correction
TD1-UML-correction
 
Android - Tp1 - installation et démarrage
Android - Tp1 -   installation et démarrageAndroid - Tp1 -   installation et démarrage
Android - Tp1 - installation et démarrage
 
Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques
 
Android - Tp3 - intents
Android - Tp3 -  intentsAndroid - Tp3 -  intents
Android - Tp3 - intents
 
Android - TPBonus - web services
Android - TPBonus - web servicesAndroid - TPBonus - web services
Android - TPBonus - web services
 

Chp3 - Modélisation Multidimensionnelle

  • 1. Institut National des Sciences Appliquées et de Technologie Business Intelligence Chp3 – Modélisation des Données Décisionnelles Dr. Lilia SFAXI GL5 - 2013-2014 1
  • 2. Modélisation des Données Décisionnelles  Utilisation de concepts pour : o Optimiser la restitution de données selon les axes métiers de l’entreprise o Gérer et visualiser les données de manière rapide et intuitive o Retrouver et analyser rapidement les données à partir de diverses sources o Intégrer plusieurs bases de données o  2 Extraire, grouper, organiser et corréler et transformer les données Deux types de modélisations: Entité-Relation et Multidimensionnelle Business Intelligence 27/02/2014
  • 3. Modèles de Données Business Intelligence 3 27/02/2014
  • 4. 4 Plan du Chapitre  Modélisation Entité-Relation  Modélisation Multidimensionnelle  Conception des Data Warehouses : Etapes et Exemple  Modèles d’un Data Warehouse  Aspects Fondamentaux de la Modélisation Multidimensionnelle Business Intelligence 27/02/2014
  • 6. 6 Modélisation Entité-Relation  Discipline permettant d’éclairer les relations microscopiques entre les données o o Simplifier le traitement des transactions o  Supprimer la redondance des données Aider le concepteur dans la répartition des propriétés entre les entités Principes o Notion d’identifiant o Dépendance fonctionnelle o Décomposition o Formes normales Business Intelligence 27/02/2014
  • 7. 7 Normalisation dans les BDR  Forme normale : o o Permet d’éviter les anomalies transactionnelles dues à une mauvaise modélisation des données o  Type de relation particulier entre les entités Permet de vérifier la robustesse de la conception des modèles de données pour éviter les problèmes de redondance et de mise à jour du contexte Dans le modèle OLTP, il existe 8 formes normales o Elles s’emboitent les unes dans les autres o Le respect d’une FN de niveau supérieur implique le respect des FN des niveaux inférieurs o On va présenter les 3 premières (les plus utilisées) Business Intelligence 27/02/2014
  • 8. 8 Première Forme Normale (1FN)  Relation dont tous les attributs : o Contiennent une valeur scalaire (les valeurs ne peuvent pas être divisées en plusieurs sousvaleurs dépendant également individuellement de la clé primaire) o Contiennent des valeurs non répétitives (le cas contraire consiste à mettre une liste dans un seul attribut). o Sont constants dans le temps (utiliser par exemple la date de naissance plutôt que l'âge). Problème Produit Téléviseur Solution Fournisseur Fournisseur Téléviseur Vidéo SA Téléviseur Business Intelligence Vidéo SA, Hitek LTD Produit Hitek LTD 27/02/2014
  • 9. 9 Deuxième Forme Normale (2FN)  Les attributs d'une relation sont divisés en deux groupes : o o  Le premier groupe est composé de la clé (une ou plusieurs). Le deuxième groupe est composé des autres attributs (éventuellement vides). Tout attribut du deuxième groupe ne peut pas dépendre que d'un sous-ensemble (strict) d'attribut(s) du premier groupe. o « Un attribut non clé ne dépend pas que d'une partie de la clé » Problème Pdt Fournisseur Solution Adresse Fournisseur Produit Fournisseur Fournisseur Adresse Télé Vidéo SA 13 rue Midi Télé Vidéo SA Vidéo SA 13 rue Midi Ecran Vidéo SA 13 rue Midi Ecran Vidéo SA Hitek LTD 25 rue Bond Télé Hitek LTD 25 rue Bond Télé Hitek LTD 27/02/2014
  • 10. 10 Troisième Forme Normale (3FN)  Les attributs d'une relation sont divisés en deux groupes : o o  Le premier groupe est composé de la clé (une ou plusieurs). Le deuxième groupe est composé des autres attributs (éventuellement vides). Tout attribut du deuxième groupe ne peut pas dépendre que d'un sous-ensemble (strict) d'attribut(s) du deuxième groupe. o « Un attribut non clé ne dépend pas d'un ou plusieurs attributs ne participant pas à la clé ». Problème Fournisse ur Adresse Vidéo SA 13 rue Midi Paris Hitek LTD 25 rue Bond London Business Intelligence Ville Solution Pays Fournisse ur Adresse Ville France Vidéo SA 13 rue Midi Paris England Hitek LTD 25 rue Bond London Ville Pays Paris France London England 27/02/2014
  • 11. 11 Modélisation Entité-Relation  Le succès du traitement des transactions dans les BDR est essentiellement dû à l’apport de la modélisation entité/relation  Exemple o simple recherche dans une table principale d'adresses clients. une o Cette recherche est contrôlée par une clé d'adresse client, qui définit l'unicité de l'enregistrement et permet une recherche indexée extrêmement rapide. o Le respect des formes normales fait que cette mise à jour soit faite en une itération, sans risque d’oublier des enregistrements Business Intelligence 27/02/2014
  • 12. 12 Limites de la Modélisation E/R  Modèle complexe o Plusieurs tables et jointures mises en œuvre   Pas de compréhension pour l’utilisateur  Données historiques difficilement représentées  Business Intelligence Risque de dégradation des performances Contraire aux objectifs du DW 27/02/2014
  • 14. Modélisation Multidimensionnelle : Notions de Base 14  Méthode de conception logique qui vise à présenter les données sous une forme standardisée, intuitive et qui permet des accès hautement performants  Permet de considérer un sujet analysé comme point dans un espace à plusieurs dimensions  Les données sont organisées de manière à mettre en évidence: o Le Sujet  Le Fait o Les perspectives de l’analyse  La table des dimensions Business Intelligence 27/02/2014
  • 15. 15 Faits – Table des Faits  Fait o o Grain de mesure de l’activité o Résultat d’une opération d’agrégation des données o Exemple: Chiffre d’affaires, nombre de vente, gain, nombre de transaction… en général : une valeur numérique o  Sujet d’analyse Les mesures sont stockées dans la table des faits Table des faits o Clé composite référencent des clés primaires des tables de dimensions o Contient les valeurs des mesures et des clefs vers les tables de dimensions  traduit une relation (n,m) entre les dimensions o Plusieurs tables de fait dans un DW o Les faits les plus utiles d’une table des faits sont numériques et additifs Business Intelligence 27/02/2014
  • 16. 16 Faits – Table des Faits  Exemple: o  Fait: Montant des ventes, chaque jour pour chaque produit dans chaque magasin A en général plusieurs lignes et peu de colonnes Date Dimensions Produit Business Intelligence Ventes Journalières Clé Date Clé Produit Clé Magasin Quantité vendue Montant des ventes Table des Faits Magasin Faits 27/02/2014
  • 17. 17 Table des Dimensions  Contient une clé primaire unique qui correspond à l’un des composants de la clé multiple de la table des faits  Les tables dimensionnelles sont les points d’entrée de l’entrepôt de données  Les dimensions o o En général sous forme textuelle o  Thème (ou axe) selon lequel les données sont analysées Parfois discrète (ensemble limité de valeurs): couleurs, parfums A en général plusieurs colonnes et peu de lignes Business Intelligence Produit Clé Produit Description produit Description marque Description catégorie Description type emballage Taille emballage Poids Unité de mesure du poids Type de stockage Type de durée rayon Largeur sur étagère Hauteur sur étagère Profondeur sur étagère 27/02/2014
  • 18. 18 Vue  Représentation d’une ou plusieurs requêtes de l’utilisateur du SID o o  À une requête correspond une et une seule vue À une vue peuvent correspondre plusieurs requêtes Une vue correspond également à un hyper-cube dont : o Chaque dimension est décrite par une entité dont le contenu est décrit par l’association de ces entités o Les propriétés de l’association sont des faits ou mesures o Les propriétés des entités intervenant dans la vue sont des conditions  Les combinaisons des conditions sont les coordonnées qui déterminent des valeurs de faits, comme une combinaison de valeurs numériques peut déterminer la position d’un point dans l’espace  Un fait n’est pas seulement un élément du résultat de la requête, mais il doit être déterminé par l’association des conditions Business Intelligence 27/02/2014
  • 19. 19 Vue  Exemple 1: o Requête: Quels sont les frais de déplacement et le kilométrage des commerciaux de la région nord ayant des véhicules de 10 à 14 CV en avril 2004? o Vue: Faits   Kilométrage  Par Employé (fonction)  Par Véhicule (puissance)  Par Région Véhicule  Business Intelligence Frais de déplacement Par Mois Marque Puissance Employé Nom Fonction Clé Employé Clé Véhicule Clé Région Clé Mois Frais de déplacement Kilométrage Région Mois 27/02/2014
  • 20. 20 Vue  Exemple 2: o Requête: Quelles ont été les marges sur les ventes du produit ‘P023’ pour le client Ben Salah Ahmed à Hammamet durant le mois de Janvier? o Vue: Client Nom Fonction   Produit  Client  Région Produit  Business Intelligence Marge Mois Région Nom Vue 1 Marge Mois 27/02/2014
  • 21. 21 Vue  Exemple 3: o Requête: Quels ont été les revenus sur les ventes de la marque ‘Teams’ en Tunisie durant l’année 2011? Marque o Vue:   Pays  Business Intelligence Marque  Vue 2 Revenu Année Pays Année Revenu 27/02/2014
  • 22. 22 Vue  Exemple 4: o Requête: Quels ont été les quantités vendues de la gamme ‘G006’ durant le Trimestre 2 pour la région du nord ? Gamme o Vue:   Trimestre  Business Intelligence Gamme  Vue 3 Quantité Région Région Trimestre Quantité 27/02/2014
  • 23. 23 Domaine et Contexte  Domaine o o  Concerne un utilisateur ou un ensemble cohérent d’utilisateurs Implique un vocabulaire commun et une manière commune d’appréhender l’information Contexte o Ensemble de faits et dimensions assemblées selon des critères sémantiques formels de cohérence o Caractérisé par une association unique, groupant tous les faits relevés dans les vues Business Intelligence 27/02/2014
  • 24. 24 Contexte : Activité des Ventes  En opérant une relation superficielle entre les trois vues des exemples 2, 3 et 4, on détecte deux sortes d’éléments de rapprochement o Certaines informations (entités ou faits) se retrouvent dans plusieurs vues o Certaines entités, appartenant à des vues différentes, sont fonctionnellement liées les unes aux autres. o On peut intégrer ces vues en un seul contexte comportant une association porteuse des faits: Marge, Revenu, Quantité, qui comporte neuf entités distinctes Business Intelligence 27/02/2014
  • 25. 25 Contexte : Activité des Ventes  Contexte : Activité des Ventes Client Région Année Vue 1 Marge Produit Trimestre Mois Vue 2 Année Produit Revenu Pays Marge Revenu Quantité Région Gamme Gamme Vue 3 Région Client Mois Marque Trimestre Pays Marque Quantité 27/02/2014
  • 26. 26 Hiérarchie  Élément fondamental dans la structure d’un contexte  Représente pour l’utilisateur des chemins de consolidation d’indicateurs (faits)  Chaque niveau est représenté par une entité  Certaines entités sont rattachées à d’autres par des liens d’appartenance ou de regroupement hiérarchique  Certains de ces chemins sont connus (Jour, Mois, Année), d’autres doivent être repérés par une analyse précise du vocabulaire des utilisateurs (Produit, Gamme, Marque) Business Intelligence 27/02/2014
  • 27. 27 Hiérarchie : Activité des Ventes … … … … Business Intelligence Mois Trimestre Année Produit Gamme Marque Région Pays Client Catégorie Temps Produit Territoire Client 27/02/2014
  • 28. 28 Granularité  Le « grain » d’une dimension est le niveau de sélection le plus fin possible de cette dimension o Le grain de la dimension Temps est Mois o Le grain de la dimension Territoire est Région  L’intégration de chaque nouvelle vue est donc susceptible de modifier le grain sur une ou plusieurs dimensions  Le grain d’un contexte découle de la combinaison des grains de toutes les dimensions. Il définit le niveau de détail pouvant être obtenu par la requête la plus sélective et la plus fine possible mettant en jeu toutes les dimensions. Business Intelligence 27/02/2014
  • 29. 29 Granularité (Exemple)  Grain du contexte: combinaison Produit-Mois-Client-Région o  S’applique à tous les faits Règle: Tous les faits d’un contexte doivent être définis pour le grain de ce contexte o Si les 3 indicateurs marge, revenu et quantité sont dans le contexte, alors ils ont un sens à tous les niveaux. o Exemple: si la marge n’est définie que par Pays et par Mois, alors que les autres le sont par Région et par Trimestre, il y aurait décalage de grain entre les faits o Décalage  les faits n’appartiennent pas tous au même contexte  facteur d’incohérence Business Intelligence 27/02/2014
  • 30. 30 Grain du contexte Vente Temps Année Client Trimestre Catégorie Mois Produit Gamme Produit Région Mois Client Marge Revenu Quantité Client Région Pays Marque Territoire Produit Business Intelligence 27/02/2014
  • 31. Modélisation Multidimensionnelle: Caractéristiques  Lisibilité  Performances (chargement + exécution des requêtes)  Évolutivité  31 Redondances envisageables o o Pas de problème d’intégrité des données (contrôles à l’acquisition) o  Pas de mise à jour en ligne (chargement uniquement) Privilégier l’accessibilité plutôt que la normalisation Requêtes ensemblistes, portant sur de gros volumes de données o o Adaptation du modèle pour des requêtes ad-hoc o  Projections, restrictions, regroupements, agrégations Techniques d’optimisation basées sur les chemins d’accès Pré-calcul de certains agrégats + dé-normalisation Business Intelligence 27/02/2014
  • 32. Modélisation Multidimensionnelle: Avantages  Structure prévisible et standardisée  Diminution du nombre de tables et de jointures  32 Modèle évolutif qui peut être modifié sans peine o Ajout de nouveaux faits non prévus initialement, à partir du moment où ils sont cohérents avec la granularité de la table des faits existante o Ajout de nouvelles dimensions, à partir du moment où une seule valeur de la dimension est définie pour chaque enregistrement factuel existant o Ajout d’attributs dimensionnels nouveaux o Changement de granularité: Décomposition des enregistrements d’une dimension existante en un niveau de détail plus fin à partir d’une date déterminée Business Intelligence 27/02/2014
  • 33. Modélisation Multidimensionnelle: Inconvénients  Tables plus volumineuses  33 Fréquence d’accès très variable aux contenus des tables Business Intelligence 27/02/2014
  • 34. Règles d’Élaboration et d’Intégration des Vues 34  La structure des vues externes se déduit directement des requêtes des utilisateurs, non des connexions possibles entre les entités  Dans un domaine, il existe un ou plusieurs sous-ensembles de vues liées entre elles par des critères de cohérence sémantique et structurelles.  Contextes  La liste exhaustive des vues n’est jamais figée  La normalisation du MDD permet d’anticiper et d’intégrer automatiquement dans chaque contexte le plus grand nombre possible de vues probables d’après la structure vue connues.  Entre deux entités intervenant dans une vue, il doit exister un et un seul chemin de navigation sémantique et ce chemin doit être le plus court possible Business Intelligence 27/02/2014
  • 35. Démarche de Synthèse des VuesContextes  Identifier les faits de l’association  Identifier les liens de dépendance entre les entités  Regrouper les entités dépendantes dans une même dimension  35 Nommer les dimensions o Les dimensions pour lesquelles on trouve facilement un nom sont dites « Dimensions fortes » o Celles pour lesquelles on doute du nom associé sont dites « Dimensions douteuses »  Business Intelligence La structure d’une dimension douteuse peut varier à terme 27/02/2014
  • 36. 36 Normalisation des Contextes  Un contexte regroupant un nombre élevé de dimensions a peu de chances de correspondre à une réalité et serait d’un maniement trop complexe o o  En général, le nombre de dimensions d’un contexte varie entre 4 et 12 dimensions Au delà de ce nombre, la probabilité de redondance dimensionnelle devient de plus en plus importante Un contexte est dit cohérent lorsque toutes les vues qu’il autorise ont une signification dans le domaine de l’utilisateur Business Intelligence 27/02/2014
  • 37. 37 Règles de Normalisation Dimensionnelle  Règle 1: o o  Il ne doit pas y avoir de dépendance fonctionnelle entre deux entités appartenant à des dimensions différentes d’un même contexte Conséquence: Regroupement des entités dépendantes dans une même dimension Exemple: Si les produits sont organisés par région, on doit intégrer l’entité Région dans la dimension Produit Id_produit Id_région Id_mois Id_client Marge Revenu Quantité Business Intelligence Produit Id_produit Région Id_produit Id_mois Id_client Marge Revenu Quantité Produit Id_produit région 27/02/2014
  • 38. 38 Règles de Normalisation Dimensionnelle  Règle 2: o o  Tous les faits d’un contexte doivent être définis d’une manière cohérente pour toutes les combinaisons dimensionnelles de ce contexte Conséquence: Les faits qui ne sont valables que pour certaines dimensions nécessitent l’éclatement du contexte Exemple: Mois Client Business Intelligence Id_produit Id_région Id_mois Id_client Marge_ventes Marge_achats Revenu Quantité Produit Id_produit Région La marge des achats ne correspond pas à un client et région. Il faut donc l’intégrer dans un autre contexte 27/02/2014
  • 39. 39 Règles de Normalisation Dimensionnelle  Règle 3: o Tous les faits d’un contexte doivent être définis pour le grain de ce contexte    Le grain d’un contexte découle de la combinaison des grains de toutes les dimensions Le grain d’une dimension est le niveau de sélection le plus fin possible de cette dimension Règle 4: o Le graphe de chaque dimension doit être acyclique o Conséquence: Il faut rompre les cycles Gamme Gamme Marque Produit Région Pays Pays Produit Id_produit Marque Id_produit Région Business Intelligence Pays 27/02/2014
  • 40. 40 Forme Dimensionnelle Normale  Le MDD correspond à un domaine qui se présente sous forme d’une constellation ou galaxie dans laquelle chaque étoile correspond à un contexte  Une même entité ou un même fait peut appartenir à plus d’un contexte, à condition de conserver une définition unique  Pour ces raisons pratiques, il est préférable de représenter les contextes sous une forme déconnectée Business Intelligence 27/02/2014
  • 41. 41 Modèles d’un Data Warehouse Business Intelligence CHP3: MODÉLISATION DES DONNÉES DÉCISIONNELLES 27/02/2014
  • 42. 42 Modèles d’un DataWarehouse  Modèle en étoile  Modèle en flocon de neige  Modèle en constellation Business Intelligence 27/02/2014
  • 43. 43 Modèle Étoile  Une (ou plusieurs) table(s) de faits comprenant une ou plusieurs mesures  Plusieurs tables de dimension dé-normalisées: descripteurs des dimensions.  Les tables de dimension n'ont pas de lien entre elles.  Avantages o o Performances : nombre de jointures limité ; gestion des données creuses. o  Facilité de navigation. Gestion des agrégats Inconvénients o Redondances dans les dimensions. o Alimentation complexe.. Business Intelligence 27/02/2014
  • 44. 44 Modèle en Étoile - Exemple Produit Code_pdt Description Couleur Marque Créateur Période Code_per Année Trimestre Mois Jour Business Intelligence Ventes Code_produit Code_période Code_Magasin Unités_vendues Montant_ventes Montant_coût Magasin Code_ma g Nom_mag Ville Téléphone Manager 27/02/2014
  • 45. 45 Modèle en Flocon de Neige  Dérivé du schéma en étoile où les tables de dimensions sont normalisées o La table des faits reste inchangée  Chacune des dimensions est décomposée selon sa (ou ses) hiérarchie(s)  Exemple : Commune, Département, Région, Pays, Continent  Utilisé lorsque les tables sont très volumineuses  Avantages o o  Réduction du volume Permettre des analyses par pallier (drill down) sur la dimension hiérarchisée Inconvénients o Navigation difficile o Nombreuses jointures Business Intelligence 27/02/2014
  • 46. 46 Modèle en Flocon de Neige - Exemple Marque Code_marque Nom Description Créateur Produit Code_pdt Description Couleur Code_marque Période Code_per Année Trimestre Mois Jour Business Intelligence Ventes Code_produit Code_période Code_Magasin Unités_vendues Montant_ventes Montant_coût Magasin Code_ma g Nom_mag Ville Téléphone Manager 27/02/2014
  • 47. 47 Constellation  Fusionner plusieurs modèles en étoile qui utilisent des dimensions communes  Un modèle en constellation comprend donc : o Plusieurs tables de faits o Des tables de dimensions communes ou non à ces tables de faits. Business Intelligence 27/02/2014
  • 48. 48 Modèle en Constellation - Exemple Produit Fournisseur Code_four Nom Adresse Catégorie Achats Code_produit Code_période Code_fournisseur Unités_achetées Montant_achats Montant_remises Business Intelligence Code_pdt Description Couleur Marque Créateur Période Code_per Année Trimestre Mois Jour Ventes Code_produit Code_période Code_Magasin Unités_vendues Montant_ventes Montant_coût Magasin Code_ma g Nom_mag Ville Téléphone Manager 27/02/2014
  • 49. 49 Synthèse  Modèle en étoile o  Modèle en flocon de neige o  Taille de dimension plus grosse Jointures pour reconstruire Modèle en étoile >> Modèle en flocon o Business Intelligence car tables de dimension << tables de fait 27/02/2014
  • 51. 51 Dimension  Une dimension peut être définie comme : o un thème, ou un axe (attributs), selon lequel les données seront analysées.  Ex : Temps, Découpage administratif, Produits.  Une dimension contient des membres organisés en hiérarchie : o Chacun des membres appartient à un niveau hiérarchique (ou niveau de granularité) particulier o Ex : pour la dimension Temps: année –semestre – mois – jour Business Intelligence 27/02/2014
  • 52. 52 Dimensions - Caractéristiques  Dimension o  Temps, Produit, Géographie, ... Niveau : hiérarchisation des dimensions o o Produit : Rayon, Catégorie, Nature,... o  Temps : Année, Semestre, Trimestre, Mois, Semaine, ... Géographie : Région, Département, Ville, Magasin, … Membres d'un Niveau o o Produit:: gorie : Frais.Laitage, ... , Liquide.Jus o  Produit::Rayon Produit:: gorie.Nature : Frais.Laitage.Yaourt, ... , Liquide.Jus.Orange Cellule o  : Frais, Surgelé, ... , Liquide Intersection des membres des différentes dimensions Formule o calcul, expression, règle, croisement des dimensions  Business Intelligence Somme(Qte), Somme(Qte*PrixVente), Moyenne(Qte*(PrixVente-PrixAchat)), ... 27/02/2014
  • 53. 53 Faits  Une mesure est un élément de donnée sur lequel portent les analyses, en fonction des différentes dimensions o Ex : coût des travaux, nombre d’accidents, ventes  Un fait représente la valeur d’une mesure, mesurée ou calculée, selon un membre de chacune des dimensions  Exemple : o Business Intelligence « 250 000 euros » est un fait qui exprime la valeur de la mesure « coût des travaux » pour le membre « 2002 » du niveau année de la dimension « temps » et le membre « Versailles » du niveau « ville » de la dimension « découpage administratif » 27/02/2014
  • 54. 54 Faits – Table des Faits  Fait additif : o o  Additionnable suivant toutes les dimensions Exemples: quantité vendue, chiffre d’affaire, coût Fait semi-additif : o o  Additionnable selon certaines dimensions Exemples: Niveau de stock (excepté sur la dimension temps), Nombre de transactions, de clients (excepté sur la dimension produit) Fait non-additif : o Non additionnable o Exemple: attribut ratio (marge brute = 1- Coût/CA) Business Intelligence 27/02/2014
  • 55. 55 Dimension Temps tout entrepôt   Reliée toute table de fait  2 choix d ’implantation o Type SQL DATE o Calendrier + Table Temps  Informations supplémentaires   Jours fériés, vacances, période fiscale,  Business Intelligence Évènement (match de finale de coupe du monde) saison haute ou basse, … 27/02/2014
  • 56. 56 Opérations OLAP  Drill Up / Drill Down  Rotate  Slicing  Scoping Business Intelligence 27/02/2014
  • 57. 57 Opérations OLAP - Drill Up/Drill Down Business Intelligence 27/02/2014
  • 58. 58 Opérations OLAP - Rotate Business Intelligence 27/02/2014
  • 59. 59 Opérations OLAP - Slicing Business Intelligence 27/02/2014
  • 60. 60 Opérations OLAP - Scoping Business Intelligence 27/02/2014
  • 61. 61 Stockage  ROLAP : Relational OLAP  MOLAP : Multi-Dimentional OLAP  HOLAP : Hybrid OLAP  DOLAP : Desktop OLAP Business Intelligence 27/02/2014
  • 62. 62 ROLAP (Relational OLAP)  OLAP relationnel  Données obtenues à partir de tables relationnelles et de jointures entre celles-ci  En fonction de la granularité, la requête générée est plus ou moins complexe  A chaque consultation, la requête est recalculée o Les résultats ne sont pas stockés  Langage : SQL  Avantages o  Faible coût (car tire partie des ressources existantes) Inconvénients o Business Intelligence Temps de réponse long car sollicitation de la base à chaque relance d’un rapport 27/02/2014
  • 63. 63 MOLAP (Multi-Dimentional OLAP)  OLAP multi-dimentionnel  Données stockées dans une base de données multi-dimentionnelle appelée CUBE o Exemple : Essbase…  Plus de relationnel!  Tous les croisements possibles sont précalculés o Restitution des données instantanée  Langage : MDX  Avantages o  Temps de réponse très court (toutes les données et résultats sont stockés) Inconvénients o Coût élevé des licences pour les bases multi-dimentionnelles o Coût élevé de développement des cubes o Difficile à mettre en place pour les gros volumes de données, à cause de tous les résultats précompilés Business Intelligence 27/02/2014
  • 64. 64 HOLAP (Hybrid OLAP)  Association du ROLAP et du MOLAP  Concept de Drill-Through o o  Accès aux données agrégées avec MOLAP (Cube) Accès aux détails avec le ROLAP (tables relationnelles) Étapes : o Données agrégées stockées dans une table multi-dimentionnelle o Restitution de ces données à partir d’un outil de reporting    Affichage des données agrégées extraites à partir des tables multi-dimentionnelles Affichage des détails des opérations issus des bases relationnelles Avantages o o  Temps de réponse assez court Moins coûteux que MOLAP car moins de développement Inconvénients o Business Intelligence Ne pourra pas être utilisé si les rapports sont trop complexes et font trop de croisements de données 27/02/2014
  • 65. 65 DOLAP (Desktop OLAP)  Ce n’est pas une technologie de stockage, mais un mode de fonctionnement.  Base de donnée OLAP limitée en taille  Permet à l’utilisateur d’enregistrer une partie de la base de données multidimentionnelle en local Business Intelligence 27/02/2014
  • 66. 66 H-OLAP  Nouvelles fonctions pour SQL o BREAK BY (SAS) o RANK o TOP / BOTTOM : Requête de type « Top Ten » (les dix meilleurs, les dix moins bons) o Extension du Group By (SQL99) un agrégat   Rollup: réduire progressivement   Grouping Sets : Partitionnement selon plusieurs dimensions Cube : Partitionnement selon tous les sous-ensembles possibles de Grouping Sets MS MDX o Langage d’expression OLAP pour MS SQL Server o Exemples  Business Intelligence SELECT NON EMPTY {[Time].[1997], [Time].[1998]} ON COLUMNS, [Promotion Media].[Media Type].Members ON ROWS FROM Sales 27/02/2014
  • 67. 67 Conception d’un Data Warehouse: Étapes et Exemples Business Intelligence CHP3: MODÉLISATION DES DONNÉES DÉCISIONNELLES 27/02/2014
  • 68. 68 Conception d’un Data Warehouse  Étape 1 o  Choisir le processus à modéliser Étape 2 o Choisir le grain des faits o Décider de ce que représente une ligne de la table de faits   Étape 3 o Identifier les dimensions qui s’appliquent aux lignes de la table des faits   Niveau de détail : transactions individuelles, récapitulatifs journaliers, mensuels… Typiquement le temps, le client, le foyer, le produit, magasin, agence, compte… Étape 4 o Identifier les mesures de fait qui renseignent la table de faits  Business Intelligence De préférence des quantités numériques additives 27/02/2014
  • 69. Conception d’un Data Warehouse Exemple : La Distribution  Processus : o Comprendre les achats des clients saisis aux Terminaux Points de Vente (TPV) o  69 Modéliser les ventes au niveau des TPV Etape 1 : Le premier modèle dimensionnel o Doit répondre aux questions les plus pressantes de l’utilisateur o Ses données doivent être les plus faciles à extraire o  Quels produits se vendent dans quel magasin, à quel prix, quand, dans quelles conditions de promotion? Business Intelligence 27/02/2014
  • 70. Conception d’un Data Warehouse Exemple : La Distribution  70 Etape 2 : o Quel niveau de détail doit être disponible dans le modèle? o Principe: Obtenir un schéma basé sur les données les plus atomiques o  Donnée atomique : une ligne individuelle de transaction saisie sur un TPV pour mieux anticiper les requêtes ad-hoc des utilisateurs Business Intelligence 27/02/2014
  • 71. Conception d’un Data Warehouse Exemple : La Distribution  71 Etape 3 : o o Principe: l’énoncé précis du grain détermine les dimensions principales o  Choix des dimensions Les dimensions supplémentaires qui peuvent être ajoutées doivent prendre une valeur unique pour chaque combinaison de valeurs des dimensions principales Dimensions principales o Temps o Produit o Promotion Date Magasin o Faits de Transaction TPV Clé Date Attributs Produit Clé Produit Attributs Business Intelligence Clé date Clé Produit Clé Magasin Clé Promotion … Magasin Clé magasin Attributs Promotion Clé Promo Attributs 27/02/2014
  • 72. 72 Conception d’un Data Warehouse Exemple : La Distribution Produit  Clé Produit Description produit Etape 3 (Suite): Description marque Description catégorie o Dimension Produit Description type emballage  Attributs obtenus à partir du fichier Produits de l’application opérationnelle Taille emballage Poids Unité de mesure du poids Type de stockage Type de durée rayon Largeur sur étagère Hauteur sur étagère Profondeur sur étagère … Business Intelligence 27/02/2014
  • 73. Conception d’un Data Warehouse Exemple : La Distribution  73 Etape 4 : Identifier les faits o Quantité vendue, montant de la vente en euros, coût standard en euro o Questions: stocker le bénéfice? La marge brute? o Principe: pourcentage et ratios sont non-additifs  Ne pas les stocker, mais stocker le numérateur et dénominateur Faits de Transaction TPV Date Clé Date Attributs Produit Clé Produit Attributs Business Intelligence Magasin Clé date Clé Produit Clé Magasin Clé Promotion Numéro de trans. TPV Quantité vendue Montant des ventes Coût Bénéfice Brut Clé magasin Attributs Promotion Clé Promo Attributs 27/02/2014
  • 74. 74 Bibliographie  Supports de Cours o Karima Tekaya – « Informatique Décisionnelle » - INSAT o Fatma Baklouti – « Les entrepôts de données (Data Warehouses) » - INSAT o Didier Donsez – « Conception de Bases Décisionnelles » - Université Joseph Fourier o E. Grislin-Le Strugeon – « mes d’information Mining) » - Université de Valenciennes Business Intelligence cisionnels (Data Warehouse / Data 27/02/2014