1. Techniques d’exploitation de données
(Data Mining)
Projet 1
Professor : François Bellavance
Abdolrasoul Baharifard
(Étudiant de l’université Laval)
Hiver 2015
2. Motivation :
Dans ce travail, nous générons des règles d’association pour une chaîne de boulangerie ayant un
menu de 40 articles de pâtisseries et de 10 boissons à travers différentes succursales aux États-
Unis.
Description de la base de données :
Dans notre sujet de travail, on utilise des données d’une boulangerie contenant des informations
sur les 75000 achats avec 55 variables (52 binaires et 3 nominales). Les variables avec les
modalités 0 indiquent absence et 1 présence. Par exemple, pour la variable ‘cafe’, 1 indique le
client a acheté le café et 0 indique qu’il n’a pas acheté du café.
Objectif :
Nous allons donc générer des règles d’associations représentant les éléments à présenter
conjointement sur la chaîne de boulangeries. De ce fait, nous serons en mesure de conseiller les
boulangeries sur comment ils peuvent aménager les produits et les dispositions de leur aliments
afin d’amener plus de clients à consommer leurs produits.
.
Sélection des variables :
Nous sélectionnons les variables pour l’analyse selon les étapes suivantes:
• Inclusion de tous les variables dans notre jeu de données pour voir quelles variables sont
pertinentes avec les règles d’associations.
• Choix des variables avec améliorations supérieurs à 30%. Les variables considérés sont :
limonade_framboise ,biscuit_framboises, limonade_citron, biscuit_citron, the_vert,
soda_aux_cerises,cafe,twist_amandes,tarte_complete_pommes,eclair_cafe,danoise_pomme,
croissant_pommes, danoise_abricots, tarte_cerises, tarte_bleuets.
3. • Inclusion des variables de l’étape précédente dans SAS base, et génération de nouvelles
règles d’association avec SAS EM. Cette fois, nous choisissons les variables avec une
confiance attendue supérieure à 10%. Ces variables sont :
limonade_framboise, biscuit_framboises, limonade_citron, biscuit_citron, the_vert , cafe,
twist_amandes,tarte_complete_pommes, eclair_cafe, danoise_pommes, croissant_pommes,
danoise_abricots, tarte_cerises.
Modélisation
Après la préparation des données avec SAS base, nous les importons dans SAS EM. Les
paramètres importants du nœud association que nous considérons sont (Annexe 1):
• Élément maximum : 4
• Niveau de confiance minimum : 80%
• Pourcentage de support minimum : 5%
Après lancer le programme on a obtenu les résultats qui viennent dans la section suivante.
Interprétation des résultats
On a roulé SAS EM et parmi les règles obtenues, on a choisi les règles rependant aux
critères suivant (Annexe 3) :
• Confiance >= 80%
• Support >=4
• Lift >=5
Grâce à ce processus, on sélection un sous-ensemble de règle de annexe 3 en utilisent l’annexe 2
selon les critères suivants :
4. • La règle limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron
est plus intéressante que la règle the_vert & biscuit_ framboises ==> limonade_citron &
biscuit_citron parce que l’amélioration, support et confiance pour la première est plus élevée que
la deuxième.
• De la même manière, la règle limonade_framboises & biscuit_citron ==> limonade_citron
est plus intéressante que la règle limonade_citron & biscuit_ framboises ==> biscuit_citron
parce que l’amélioration, support et confiance pour la première est légèrement élevée que la
deuxième.
• La même critère s’applique pour les 2 règles que nous intéressent.
Con
f
Sup
p
Améli Transa
c
Règles
92.2 4.44 19.07 1917 limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron
90 4.85 13.94 2094 Tarte_complete_pommes & cafe ==> twist_amandes & eclair cafe
89.1 4.89 6.64 2109 Eclair_cafe & cafe ==> twiste_amandes
92.09 4.46 7.76 1922 limonade_framboises & biscuit_citron ==> limonade_citron
• limonade_framboises & biscuit_ framboises ==> limonade_citron & biscuit_citron :
La confiance pour cette règle est 92.2%, c’est-à-dire 92.2% des clients qui ont acheté
limonade_framboises et biscuit_ framboises dans la transaction ont également acheté
limonade_citron et biscuit_citron . 4.44% des transactions dans la base de données contiennent
(limonade_framboises & biscuit_ framboises) et (limonade_citron & biscuit_citron) au même
temps. Aussi l’amélioration 19.07 indique qu’il y a une forte relation positive entre
(limonade_framboises & biscuit_ framboises) et (limonade_citron & biscuit_citron).
• Tarte_complete_pommes & cafe ==> twist_amandes & eclair cafe
90% des clients qui ont acheté une Tarte_complete_pommes et un cafe ont également acheté
une eclair cafe. 4.85 % des transactions dans la base de données supportent cette règle.
L’amélioration à 13.94 est aussi considérable.
• Eclair_cafe & cafe ==> twiste_amandes
5. 89.1% des clients qui ont acheté des eclair_cafe et cafe ont également acheté une
twiste_amandes. 4.89 % des transactions dans la base de données supportent cette règle.
• limonade_framboises & biscuit_citron ==> limonade_citron
92.09% des clients qui ont acheté des limonade_framboises et biscuit_citron ont également
acheté une limonade_citron. 4.46 % des transactions dans la base de données supportent cette
règle.
Conclusion :
Nous pouvons aussi remarquer que les éléments revenant le plus souvent conjointement sur les
boulangeries sont limonade_framboise, biscuit_framboises, limonade_citron, biscuit_citron,
the_vert, cafe, twist_amandes, tarte_complete_pommes, eclair_cafe, danoise_pommes,
croissant_pommes, danoise_abricots, tarte_cerises. Aussi l’exploitation non supervisé de nos
base de données nous a permis, non seulement d’établir des profils intéressants et interprétables,
mais également des groupes de produits sur lesquels les boulangeries peux mieux se concentrer
afin de cibler leur clientèle.
6. Annexe 1 : SAS EM avec notre base de données
Annexe 2 : Graphique des règles à analyser
7. Annexe 3 : les règles sélectionnées en utilisant l’annexe 2