Titova Ksenia  Belkoura Meriam               DATAMINING       Etude et analyse de données cardiologiques                  ...
1    INTRODUCTION ...........................................................................................................
1   INTRODUCTION               Le datamining est un processus qui permet de découvrir, dans de grosses bases      de donné...
2   LE DATA MINING MIS EN ŒUVRE SOUS SODAS2.1 OBJECTIFS GENERAUX DU DATAMINING       Les progrès de la technologie informa...
jacentes aux classes décrites, mais aussi des taxonomies fournies. Nous                 sommes donc loin des simples centr...
Définir ensuite un contexte par :       -         Des unités statistiques de premier niveau (habitants, familles, entrepri...
2.2.1 Schéma illustrant les étapes de mise en œuvre du logiciel SODASMeriam BELKOURA                                      ...
2.2.2 Description sommaire du mode opératoire2.2.2.1    Présentation de la page d’accueil          La fenêtre principale d...
- Double-cliquer sur l’icône BASE ;                                                         - Parcourir les dossiers et sé...
La couleur de cette boîte indique le statut de la méthode :                     Gris : la méthode ne peut être exécutées c...
3     ANALYSE ET ETUDE STATISTIQE AVEC SODAS3.1       PRESENTATION DE L’ETUDE3.1.1.1     Contexte de l’étude et présentati...
‘type_douleur’, ‘pression’,‘cholester’,‘sucre’,‘electro’,‘angine’,’depression’,’pic’ et‘vaisseau’. Ces variables de descri...
Au travers de DB2SO, on va pouvoir transformer les tuples ainsi généré par la requêteen tableau symbolique. On passe ainsi...
3.2.1.2   Mise en œuvre de DB2SOConnexion à la base de données accesLe système de liaisons ODBC de SODAS lui permet d’accé...
Voici l’invite qui va nous permettre de sélectionner notre base de données access.Une fois, le bon driver choisi, il faut ...
Donc « Req_concept » retourne une ligne pour chaque individu : chaque ligne ayant lastructure au dessus : identifiant de l...
Dans le cadre de ce travail, nous n’avons pas eu besoin d’ajouter des taxonomies, cest-à-diredes variables mère/filles en ...
Les fichiers SODAS utilisés en entrée des méthodes de SODAS sont des fichiers avecl’extension .SDS. Pour créer de tels fic...
Après avoir cliqué sur « select », nous choisissons ou sauvegardons notre fichier .sds et nomdonné apparait dans Title.   ...
3.2.2.2   Mise en œuvre de la méthode       Nous avons choisi de faire l’analyse sur plusieurs concepts, donc sur les diff...
Après avoir étudié le graphique précédant, on remarque que la population concernéeest en bonne santé. Cest-à-dire que les ...
Zoom Star Superposition :      Les informations précédentes on peut compléter par l’affichage de ses données en 3dimension...
3.2.3   STAT3.2.3.1 Présentation de la méthode       La méthode stat permet de représenter graphiquement l’ensemble des va...
Cette méthode a besoin, en entrée, de 2 paramètres :- une variable intervalle I- un nombre de classes kNous pouvons constr...
A partir de l’histogramme suivant, on pourrait deviner qu’un cholestérol supérieur à 300 estplutôt mauvais et pourrait cau...
On remarque que la plus part des individus ont des vaisseaux sanguins dans un bonétat, cest-à-dire A.       Biplot pour le...
Parmi les individus entre 65 et 69 ans, il y a beaucoup de disparités et leurscaractéristiques englobent toutes les autres...
Une fois ces différents paramètres définis, nous pouvons exécuter la méthode DIV. NousObtenons, en sortie, un listing cont...
L’arbre obtenu en résultat :- the number noted at each node indicates     the order of the division   - Ng <-> yes and Nd ...
Attention :Les variables de partitionnement doivent avoir été crée gâche à Add-signe- valued variabledans le module DB2SO....
Interprétation de l’arbre :On relève que ce qui peut distinguer entre une mesure de pic normal et une mesure de picanormal...
3.2.6 PCM (Principal Component Analysis)3.2.6.1 Présentation de la méthode        La méthode PCM correspond à l’analyse en...
"70-74   ans"   [110.00 , 160.00] [149.00 , 322.00] [0.00 , 2.90] [1.00 , 3.00]"65-69   ans"   [100.00 , 180.00] [177.00 ,...
Les données suivantes donnent les information sur les classes crées par cette méthodes : Learning Set         :         10...
L’image suivante nous présente les classes créées selon les axes age et cholestérol :3.2.8   SYKSOM (Kohonen Self-Organizi...
Kernel : permet de choisir avec quelle distance « le seuil de précision » est calculé.Learning factor : facteur d’apprenti...
Les cercles représentent le nombre d’individus dans la classe (la partition)Les rectangles représentent le volume, l’étend...
La méthode DISS permet de comparer dans l’ordre les objets symboliques enquantifiant les corrélations existantes, en les m...
Ces résultats on peut présenter sous la forme d’un graphique :       Après avoir analysé les résultats précédents, on peut...
3.2.10 HIPYR (Hierarchical and Pyramidal Clustering )3.2.10.1 Présentation de la méthode       La méthode HIPYR est utilis...
3.2.11 DCLUST (Clustering Algorithm based on Distance Tables)3.2.11.1 Présentation de la méthode       Le but de cette mét...
1 fichier présentant les données suivantes :    Number of SO              :         10    Learning Set              :     ...
Le 2ème fichier permet de présenter les classes formées à l’aide de graphe que l’on peutprésenter sous différents axes :Et...
4   CONCLUSIONLa réalisation de ce projet a été pour nous l’occasion de découvrir un logiciel puissantd’analyse de données...
Upcoming SlideShare
Loading in …5
×

Rapport cardiologie 2

466 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
466
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
12
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Rapport cardiologie 2

  1. 1. Titova Ksenia Belkoura Meriam DATAMINING Etude et analyse de données cardiologiques Master 2 ID Promotion 2008Enseignant : Monsieur Edwin Diday
  2. 2. 1 INTRODUCTION .......................................................................................................................................... 32 LE DATA MINING MIS EN œuvre SOUS SODAS ..................................................................................... 4 2.1 Objectifs généraux du DATAMINING................................................................................................ 4 2.2 Présentation du logiciel SODAS (Symbolic Official Data Analysis System) ...................................... 5 2.2.1 Schéma illustrant les étapes de mise en œuvre du logiciel SODAS ................................................ 7 2.2.2 Description sommaire du mode opératoire ...................................................................................... 8 2.2.2.1 Présentation de la page d’accueil................................................................................................ 8 2.2.2.2 Généralités sur la méthode d’utilisation du logiciel ................................................................... 8 2.2.2.3 Sélection d’une base d’étude ...................................................................................................... 8 2.2.2.4 Choix des méthodes à appliquer ................................................................................................. 93 ANALYSE ET ETUDE STATISTIQE AVEC SODAS .............................................................................. 11 3.1 Présentation de l’étude ....................................................................................................................... 11 3.1.1.1 Contexte de l’étude et présentation des données ...................................................................... 11 3.1.2 Les objectifs de l’étude ................................................................................................................. 11 3.2 Explication, analyse et mise en œuvre des méthodes de SODAS ...................................................... 13 3.2.1 DB2SO : extraction de données symboliques de la base de données relationnelle ....................... 13 3.2.1.1 Présentations du module ........................................................................................................... 13 3.2.1.2 Mise en œuvre de DB2SO ........................................................................................................ 14 3.2.2 VIEW (Symbolic Objects Viewer)................................................................................................ 19 3.2.2.1 Présentation de la méthode ....................................................................................................... 19 3.2.2.2 Mise en œuvre de la méthode ................................................................................................... 20 3.2.3 STAT ............................................................................................................................................. 23 3.2.3.1 Présentation de la méthode ....................................................................................................... 23 3.2.3.2 Mise en œuvre de la méthode ................................................................................................... 24 3.2.4 DIV (Divisive Clustering on Symbolic Objects)........................................................................... 27 3.2.4.1 Présentations de la méthode ..................................................................................................... 27 3.2.4.2 Mise en œuvre de la méthode ................................................................................................... 27 3.2.5 TREE (Descision Tree) ................................................................................................................. 29 3.2.5.1 Présentation de la méthode ....................................................................................................... 29 3.2.5.2 Mise en œuvre de la méthode ................................................................................................... 29 3.2.6 PCM (Principal Component Analysis) .......................................................................................... 32 3.2.6.1 Présentation de la méthode ....................................................................................................... 32 3.2.6.2 Mise en œuvre de la méthode ................................................................................................... 32 3.2.7 SCLUST (Symbolic Dynamic Clustering) .................................................................................... 33 3.2.7.1 Présentations de la méthode ..................................................................................................... 33 3.2.7.2 Mise en œuvre de la méthode ................................................................................................... 33 3.2.8 SYKSOM (Kohonen Self-Organizing Map for Symbolic Data) ................................................... 35 3.2.8.1 Présentations de la méthode ..................................................................................................... 35 3.2.8.2 Mise en œuvre de la méthode ................................................................................................... 35 3.2.9 DISS (Descriptive Measures) ....................................................................................................... 37 3.2.9.1 Présentation de la méthode ....................................................................................................... 37 3.2.9.2 Mise en œuvre de la méthode ................................................................................................... 38 3.2.10 HIPYR (Hierarchical and Pyramidal Clustering ) ......................................................................... 40 3.2.10.1 Présentation de la méthode ...................................................................................................... 40 3.2.10.2 Mise en œuvre de la méthode ................................................................................................. 40 3.2.11 DCLUST (Clustering Algorithm based on Distance Tables) ........................................................ 41 3.2.11.1 Présentation de la méthode ...................................................................................................... 41 3.2.11.2 Mise en œuvre de la méthode .................................................................................................. 414 CONCLUSION ............................................................................................................................................. 44Meriam BELKOURA Master 2 IDKsenia TITOVA 2 / 44 2007/2008
  3. 3. 1 INTRODUCTION Le datamining est un processus qui permet de découvrir, dans de grosses bases de données consolidées, des informations jusque là inconnues. L’exploitation de ces nouvelles informations peut présenter un intérêt pour analyser et interpréter les comportements d’individus par exemple. Les résultats obtenus s’insérant dans un dispositif d’analyse globale permettent alors de dresser dans des plans stratégiques ou politiques les axes d’effort à respecter. Les techniques statistiques du datamining sont bien connues. Il s’agit notamment de la régression linéaire et logistique, de l’analyse multi variée, de l’analyse des composantes principales, des arbres décisionnels et des réseaux de neurones. Cependant, les approches traditionnelles de l’inférence statistique échouent avec les grosses bases de données, car en présence de milliers ou de million de cas et de centaines ou de milliers de variables, on trouvera forcément un niveau élevé de redondance parmi les variables, certaines relations seront fausses, et même les relations les plus faibles paraîtront statistiquement importantes dans tout test statistique. L’objectif est de construire un modèle dont le pouvoir de prédiction est satisfaisant. L’analyse de données symboliques prend actuellement de plus en plus d’importance, en témoigne le développement du logiciel spécifique SODAS. C’est ce logiciel (version 2.50) qui va être utilisé dans le cadre de ce projet afin d’extraire les données concentrées dans une base de donnée relationnelle de type ACCESS et d’y appliquer les méthodes d’analyse contenues dans SODAS. Notre base d’étude du projet concerne les individus susceptibles d’avoir la maladie cardio-vasculaire. Le présent rapport est constitué de deux parties principales. La première est une présentation générale du datamining et du logiciel SODAS. La deuxième partie décrit plus précisément le contexte de l’étude, et détaille en particulier les modalités d’extraction des variables analysées et la mise en œuvre des diverses méthodes d’analyse associées.Meriam BELKOURA Master 2 IDKsenia TITOVA 3 / 44 2007/2008
  4. 4. 2 LE DATA MINING MIS EN ŒUVRE SOUS SODAS2.1 OBJECTIFS GENERAUX DU DATAMINING Les progrès de la technologie informatique dans le recueil et le transport de donnéesfont que dans tous les grands domaines de l’activité humaine, des données de toutes sortes(numériques, textuelles, graphiques…) peuvent maintenant être réunies et en quantité souventtrès importante. Les systèmes d’interrogation des données, qui n’étaient autrefois réalisables que viades langages informatiques nécessitant l’intervention d’ingénieurs informaticiens de hautniveau, deviennent de plus en plus simples d’accès et d’utilisation. Résumer ces données à l’aide de concepts sous-jacents (une ville, un type de chômeur,un produit industriel, une catégorie de panne …), afin de mieux les appréhender et d’enextraire de nouvelles connaissances constitue une question cruciale. Ces concepts sont décritspar des données plus complexes que celles habituellement rencontrées en statistique. Cesdonnées sont dites « symboliques », car elles expriment la variation interne inéluctable desconcepts et sont structurées. Dans ce contexte, l’extension des méthodes de l’Analyse des Données Exploratoires etplus généralement, de la statistique multidimensionnelle à de telles données, pour en extrairedes connaissances d’interprétation aisée, devient d’une importance grandissante. L’analyse porte sur des « atomes », ou « unités » de connaissances (les individus ouconcepts munis de leur description) considérés au départ comme des entités séparées les unesdes autres et qu’il s’agit d’analyser et d’organiser de façon automatique. Par rapport aux approches classiques, l’analyse des données symboliques présente lescaractéristiques et ouvertures suivantes : Elle s’applique à des données plus complexes. En entrée elle part de donnéessymboliques (variables à valeurs multiples, intervalle, histogramme, distribution deprobabilité, de possibilité, capacité …) munies de règles et de taxonomies et peut fournir ensortie des connaissances nouvelles sous forme d’objets symboliques présentant les avantagesqui sont développés supra : - Elle utilise des outils adaptés à la manipulation d’objets symboliques de généralisation et de spécialisation, d’ordre et de treillis, de calcul d’extension, d’intention et de mesures de ressemblances ou d’adéquation tenant compte des connaissances sous-jacentes basées sur les règles de taxonomies ; - Elle fournit des représentations graphiques exprimant, entre autres, la variation interne des descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera représenté par une zone (elle-même exprimable sous forme d’objet symbolique) et pas seulement par un point ; Les principaux avantages des objets symboliques peuvent se résumer comme suit : - Ils fournissent un résumé de la base, plus riche que les données agrégées habituelles car ils tiennent compte de la variation interne et des règles sous-Meriam BELKOURA Master 2 IDKsenia TITOVA 4 / 44 2007/2008
  5. 5. jacentes aux classes décrites, mais aussi des taxonomies fournies. Nous sommes donc loin des simples centres de gravité ; - Ils sont explicatifs, puisqu’ils s’expriment sous forme de propriétés des variables initiales ou de variables significatives obtenues (axes factoriels), donc en termes proches de l’utilisation ; - En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de données de plus haut niveau sur lequel une analyse de données symboliques de second niveau peut s’appliquer ; - Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des variables provenant de plusieurs tableaux associés à différentes populations. Par exemple, pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés issues d’une relation décrivant les habitants de chaque ville et une autre relation décrivant les foyers de chaque ville. - Plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique obtenue, il peut être plus avantageux d’extraire d’abord des objets symboliques de chaque base puis d’étudier l’ensemble des objets symboliques ainsi obtenus ; - Ils peuvent facilement être transformés sous forme de requête sur une Base de Données. Ceci a au moins les deux conséquences suivantes : Ils peuvent donc propager les concepts qu’ils représentent d’une base à une autre (par exemple, d’un pays à l’autre de la communauté européenne, EUROSTAT ayant fait un grand effort de normalisation des différents types d’enquête sociodémographiques). Alors qu’habituellement on pose des questions sous forme de requête à la base de données pour fournir des informations intéressant l’utilisateur, les objets symboliques formés à partir de la base par les outils de l’analyse des données symboliques permettent à l’inverse de définir des requêtes et donc de fournir des questions qui peuvent être pertinentes à l’utilisateurs.2.2 PRESENTATION DU LOGICIEL SODAS (SYMBOLIC OFFICIAL DATA ANALYSIS SYSTEM) Il s’agit d’un logiciel prototype public apte à analyser des données symboliques. Le logiciel SODAS est issu d’un projet de EUROSTAT portant le même nom. Celogiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dansle domaine de l’analyse des données symboliques. L’idée générale de ce projet est de construire, à partir d’une base de donnéesrelationnelle, un tableau de données symboliques muni éventuellement de règles detaxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données etd’analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d’analysede données symboliques. Une analyse des données dans SODAS suit les étapes suivantes : Partir d’une base de données relationnelle (ORACLE, ACCESS…) ;Meriam BELKOURA Master 2 IDKsenia TITOVA 5 / 44 2007/2008
  6. 6. Définir ensuite un contexte par : - Des unités statistiques de premier niveau (habitants, familles, entreprises, accidents...) ; - Les variables qui les décrivent ; - Des concepts (tranche d’âge, villes, groupes socio-économiques…). Chaque unité statistique de premier niveau est associée à un concept (par exemple,chaque habitant est associé à sa ville). Ce contexte est défini par une requête sur la base dedonnées relationnelle. Le tableau de données symboliques peut être construit, les nouvelles unités statistiquessont les concepts décrits par généralisation des propriétés des unités statistiques de premierniveau qui leur sont associées. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être deshistogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et detaxonomies) selon le type de variables et le choix de l’utilisateur. Il est alors possible de créer un fichier d’objets symboliques sur lequel une douzainede méthodes d’analyse de données symboliques peut déjà s’appliquer (histogrammes desvariables symboliques, classification automatique, analyse factorielle, analyse discriminante,visualisations graphiques…). Nota : le logiciel SODAS est téléchargeable à l’adresse suivantehttp:/www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htmMeriam BELKOURA Master 2 IDKsenia TITOVA 6 / 44 2007/2008
  7. 7. 2.2.1 Schéma illustrant les étapes de mise en œuvre du logiciel SODASMeriam BELKOURA Master 2 IDKsenia TITOVA 7 / 44 2007/2008
  8. 8. 2.2.2 Description sommaire du mode opératoire2.2.2.1 Présentation de la page d’accueil La fenêtre principale de SODAS se compose de 3 éléments principaux : 1 3 2 1 – La barre d’outils qui comporte 5 menus. 2 – La fenêtre Methods de la fenêtre principale propose, par groupe, les différentes méthodes disponibles. 3 – La fenêtre Chaining de la fenêtre principale gère l’enchaînement des méthodes appliquées à la base choisie.2.2.2.2 Généralités sur la méthode d’utilisation du logiciel Il est tout d’abord important de définir ce qu’est une filière dans le logiciel SODAS. Il s’agit d’une représentation graphique des calculs à effectuer qu’il est possible de visionner dans la fenêtre Chaining. En tête d’une filière, figure l’icône BASE représentant le fichier SODAS (.sds) sur lequel les calculs vont être effectués (la création du fichier .sds on verra par la suite dans l’exemple concret de notre étude). A la suite de cette icône BASE, viendront se placer les icônes des méthodes représentant les calculs souhaités. Après le paramétrage des méthodes et l’enregistrement de la filière, les résultats figureront sous forme d’icônes, à droite de chacune des méthodes.2.2.2.3 Sélection d’une base d’étude Pour sélectionner la « base » support de l’analyse, il ne reste plus qu’à satisfaire les étapes suivantes :Meriam BELKOURA Master 2 IDKsenia TITOVA 8 / 44 2007/2008
  9. 9. - Double-cliquer sur l’icône BASE ; - Parcourir les dossiers et sélectionner le fichier .sds qui nous intéresse ; - Cliquer sur OK - La filière a été modifiée, et maintenant il est possible de lire le nom de la base associée à la filière ainsi que son chemin d’accès sur le disque dur. .2.2.2.4 Choix des méthodes à appliquer Il faut maintenant enrichir la filière définie précédemment grâce à des méthodes (Methods) afin d’analyser les données de la base. Pour cela il est possible d’utiliser des filières prédéfinies (Model/Predefined chaining) ou bien composer soi-même une filière en enchaînant des méthodes issues de la fenêtre Methods. Pour insérer de nouvelles méthodes, il suffit de choisir le menu Method et de cliquer sur Insert Method. Un carré vide apparaît alors sous l’icône BASE ; il faut alors sélectionner la méthode à appliquer, dans la fenêtre Methods et la faire glisser jusqu’à l’emplacement vide. Les méthodes constituant maintenant la filière sont affichées à la suite de l’icône BASE, selon l’ordre défini par l’utilisateur, dans lequel elles vont s’enchaîner. Chaque méthode est représentée par une icône à gauche de laquelle se trouve son nom ainsi qu’une description sommaire. La couleur de l’icône de la méthode renseigne sur son état : Gris : la méthode n’est pas encore paramétrée ; Rouge : la méthode est paramétrée. Par défaut, les méthodes qui viennent d’être insérées sont grisées. Chaque méthode est numérotée dans la filière : ce numéro apparaît dans une petite boîte située à gauche de la méthode.Meriam BELKOURA Master 2 IDKsenia TITOVA 9 / 44 2007/2008
  10. 10. La couleur de cette boîte indique le statut de la méthode : Gris : la méthode ne peut être exécutées car elle n’est pas paramétrée Vert : la méthode est exécutable car elle est paramétrée Rouge : la méthode est désactivée. Elle est exécutable mais l’utilisateur en interdit l’exécution (menu Methods puis Desactive method). Ensuite, il faut paramétrer la méthode. Il suffit de double-cliquer sur l’icône de la méthode. Alors, une fenêtre structurée en fiches à onglets s’ouvre, elle regroupe l’ensemble des différents paramètres de la méthode. Après le paramétrage des diverses méthodes, l’affichage de la filière a changé. Toutes les méthodes sont maintenant exécutables, car paramétrées (les icônes sont rouges). Le paramétrage des toutes les méthodes de la filière étant terminé, il est possible de l’exécuter. Par contre, toute exécution d’une filière doit être obligatoirement précédée de sa sauvegarde (menu Chaining puis Save chaining as et saisie d’un nom dont l’extension est .fil). Une fois cette opération effectuée, la filière est exécutée en cliquant sur le sous-menu Run chaining du menu Chaining.Filière avant exécution des méthodes Filière après exécution des méthodesMeriam BELKOURA Master 2 IDKsenia TITOVA 10 / 44 2007/2008
  11. 11. 3 ANALYSE ET ETUDE STATISTIQE AVEC SODAS3.1 PRESENTATION DE L’ETUDE3.1.1.1 Contexte de l’étude et présentation des données La base de données relationnelle sur laquelle nous avons décidé de travailler à étéprise d’un forum de discussion : http://www.developpez.net/forums/showthread.php?t=483011qui propose des jeux de données datamining.Notre but était de choisir des données intéressantes et faciles à interpréter. La base regroupe des données sur 270 individus ayant ou susceptible d’avoir desproblèmes cardiaques. Cette étude cardiologique se base sue les paramètres suivant :L’âge, le sexe, l’intensité de la douleur cardiaque, la pression artérielle, la mesure ducholestérol dans le sang, l’intensité du sucre dans le sang, l’électrocardiogramme, la détectionde l’angine de poitrine, la mesure de la dépression nerveuse, le nombre de pics anormauxdans l’électrocardiogramme et l’état vaisseaux cardiaques.Nous avons donc les indicateurs suivants. La base access initiale.3.1.2 Les objectifs de l’étude Le but de notre étude est d’analyser les facteurs de santé responsables de causer desproblèmes cardiaques aux individus concernés. Nos individus, c’est-à-dire nos unités statistiques de premier niveau, sont doncconstitués par les numéros identificateurs et ils sont décrits par leur ‘age’, ‘sexe’,Meriam BELKOURA Master 2 IDKsenia TITOVA 11 / 44 2007/2008
  12. 12. ‘type_douleur’, ‘pression’,‘cholester’,‘sucre’,‘electro’,‘angine’,’depression’,’pic’ et‘vaisseau’. Ces variables de description ont étés expliqués au dessus. Nos concepts apparaissent de façon presque naturelle car le risque de présenter desproblèmes cardiaques et des problèmes de santé favorisant cela dépend de l’âge des personnesd’où nos concepts sont des tranches d’âges. Il s’agit donc de regrouper les individus dontl’âge est inclus dans la tranche d’âge. Nous avons réalisé la requête suivante sur notre base access initiale afin de créer notreconcept d’étude et nous avons créé une table qui nous sert à définir les tranches d’âges et lesbornes inférieure et supérieures de chaque tranche d’âge. La table Tranche_age. La requête « Req_concept » permettant de créer notre contexte d’étude à partir denotre table « Donnees » initiale est : SELECT Donnees.ID, Tranche_age.Tranche, Donnees.age, Donnees.sexe,Donnees.type_douleur, Donnees.pression, Donnees.cholester, Donnees.sucre,Donnees.electro, Donnees.angine, Donnees.depression, Donnees.pic, Donnees.vaisseau FROM Donnees, Tranche_age WHERE (((Donnees.age) <= [tranche_age].[age_max] And(Donnees.age)>=[tranche_age].[age_min])); Cette requête renvoie les individus du premier ordre et leur description. Elle permetainsi de ressortir de la base les individus, les concepts puis les caractéristiques des individussous la forme suivante :Meriam BELKOURA Master 2 IDKsenia TITOVA 12 / 44 2007/2008
  13. 13. Au travers de DB2SO, on va pouvoir transformer les tuples ainsi généré par la requêteen tableau symbolique. On passe ainsi au niveau du dessus en matière d’information puisqueSODAS présente une description des concepts en agrégeant les caractéristiques des individus(ordinal, nominal) en champ symboliques (intervalles, probabiliste...) Pour la méthode TREE, nous avons besoin d’une variable nominale par concept. Nouscréons donc cette variable de manière artificielle, nommée « MesurePic » dans la table‘AddVar, la nomination ‘MesurePic’= normal est attribué au groupe d’individus d’unetranche d’âge donc la moyenne des pics est inférieure ou égale à 1.5 et anormal sinon. C’est larequête Req_singleOK qui nous permet de calculer la moyenne de pics par tranche d’age. La requête qui nous permet de connaitre la moyenne des pics par tranche d’âge est lasuivante : SELECT Req_concept.Tranche, ROUND (Avg(Req_concept.Pic),2) ASMoyenneDePic FROM Req_concept GROUP BY Req_concept.Tranche; la variable nominale ‘MesurePic’ par concept3.2 EXPLICATION, ANALYSE ET MISE EN ŒUVRE DES METHODES DE SODAS3.2.1 DB2SO : extraction de données symboliques de la base de données relationnelle3.2.1.1 Présentations du module DB2SO est le module du logiciel SODAS qui permet à l’utilisateur de créer unensemble de concepts à partir de données stockées dans une base de données relationnelles.On présuppose bien évidemment qu’une série d’individus est stockée dans la base de donnéeset que ces individus sont répartis entre plusieurs groupes d’où la nécessité de la requête« Req_concept » qui répartit les individus entre plusieurs groupe selon leur âge. Ainsi,DB2SO va pouvoir construire un concept pour chaque groupe d’individus. Dans ce processus,les variables mères / filles ainsi, les taxonomies et l’ajout de variables supplémentairespourront être associées avec les concepts créés.Meriam BELKOURA Master 2 IDKsenia TITOVA 13 / 44 2007/2008
  14. 14. 3.2.1.2 Mise en œuvre de DB2SOConnexion à la base de données accesLe système de liaisons ODBC de SODAS lui permet d’accéder directement aux bases dedonnées et en particulier aux bases Microsoft Access. Pour importer notre base, il fautsélectionner la commande Importation(DB2SO) dans le sous menu Import du menu SODASfile.Un premier écran d’importation apparaît alors dans lequel il faut sélectionner le menu Filepuis New.L’écran suivant nous invite à sélectionner une source de données machine. Dans notre cas, ils’agit d’une base Microsoft Access.Notre projet a pour objet l’étude d’une base de données Microsoft Access. Ce SGBD inclut ledriver ODBC permettant l’accès de DB2SO à la base de données relationnelle.Meriam BELKOURA Master 2 IDKsenia TITOVA 14 / 44 2007/2008
  15. 15. Voici l’invite qui va nous permettre de sélectionner notre base de données access.Une fois, le bon driver choisi, il faut indiquer le fichier .mdb. Pour ce faire, nous cliquons surOK. On rechercher la base de travail et on la sélectionner. Lorsque ces étapes ont étés exécutés, nous allons procéder à l’extraction des individus.Pour cela, il faut sélectionner la requête SQL préalablement stockée dans la base« BD_heart1.mdb » dans l’écran qui se présente alors à nous. Il s’agit, en effet de la requête« Req_concept » présentée précédemment. Nous avons vu que le résultat de cette requête nous envoie une table sous la formesuivante :Individus|concepts|description des individus.Plus précisément :1ère colonne = individus2ème colonne = concepts3ème colonne et suivante = description des individusMeriam BELKOURA Master 2 IDKsenia TITOVA 15 / 44 2007/2008
  16. 16. Donc « Req_concept » retourne une ligne pour chaque individu : chaque ligne ayant lastructure au dessus : identifiant de l’individu, groupe auquel appartient l’individu et ensuiteles différents attributs. Après avoir cliqué sur OK, la requête est envoyée à la base de données, les individussont alors extraits de la base de données, ils sont stockés en mémoire et un tableau desconcepts est généré. Nous avons donc 6 variables qualitatives et 5 variables quantitatives et nos 269individus ont étés répartis suivants 10 groupes = concepts différents. Le menu Modify permet à l’utilisateur de modifier les concepts. Nous avons, pour lebesoin de certaines méthodes, comme la méthode TREE d’ajouter une variable singled-valuedaux concepts.Meriam BELKOURA Master 2 IDKsenia TITOVA 16 / 44 2007/2008
  17. 17. Dans le cadre de ce travail, nous n’avons pas eu besoin d’ajouter des taxonomies, cest-à-diredes variables mère/filles en indiquant des règles tel que par exemple, une variable n’ai de sensque si une autre variable a une certaine valeur.Après avoir sélectionné « Add single-valued variable », une fenêtre nous invite desélectionner la requête sql préalablement définie qui associe à chaque concept une variablenominale. Il s’agit de la requête « AddVar » qui retourne en première colonne les concepts eten deuxième colonne la variable « MesurePic » dont l’espace des valeur est {normal,anormal}.Après avoir clique sur OK, nous avons ajouté une unique variable : MesurePic.A ce stade, nous pouvons sauvegarder notre travail en choisissant File/Save as : le fichier seraalors enregistré avec l’extension .gaj. Ainsi l’utilisateur pourra retrouver son travail plus tarden cliquant sur File/Open puis en sélectionnant le fichier voulu.Meriam BELKOURA Master 2 IDKsenia TITOVA 17 / 44 2007/2008
  18. 18. Les fichiers SODAS utilisés en entrée des méthodes de SODAS sont des fichiers avecl’extension .SDS. Pour créer de tels fichiers. Il faut utiliser le menu File/Export.Meriam BELKOURA Master 2 IDKsenia TITOVA 18 / 44 2007/2008
  19. 19. Après avoir cliqué sur « select », nous choisissons ou sauvegardons notre fichier .sds et nomdonné apparait dans Title. Bien que nous n’ayons pas ajouté de taxonomie, ni de variables multimodales quenous n’en avions pas besoin, nous avons compris le fonctionnement du module DB2SO, sagrande utilité dans la création des objets symboliques et toutes les possibilités demanipulation possibles grâce à cette mise en œuvre.3.2.2 VIEW (Symbolic Objects Viewer)3.2.2.1 Présentation de la méthode Cette méthode fait partie de la statistique descriptive, les techniques qui visent à mettreen évidence des informations présentes mais cachées par le volume des données La méthode View utilise l’éditeur d’objet symbolique VSTAR permettant visualiser,dans un tableau au premier temps, tous les objets du fichier base .sds ou juste une partied’eux. Et par la suite de présenter ses données sous la forme d’étoile en 2 ou 3 dimensions (encliquant sur les boutons correspondants de la barre d’outils). Le bouton SOL renvoie ladescription des objets symboliques sélectionnés dans le tableau.Meriam BELKOURA Master 2 IDKsenia TITOVA 19 / 44 2007/2008
  20. 20. 3.2.2.2 Mise en œuvre de la méthode Nous avons choisi de faire l’analyse sur plusieurs concepts, donc sur les différentestranches d’âge afin de voir l’évolution des caractéristiques déterminant le risque d’unemaladie cardiovasculaire. Présentons dans l’exemple le premier concept comme la partie la plus jeune de notrepopulation (30-34 ans) et le deuxième en choisissant la population âgée de 10 ans de plus(40-44 ans). Tout d’abord les résultats sont présentés sous la forme d’une étoile en 2 dimensions. Les variables qualitatives sont représentées par des points de taille proportionnelle aunombre d’occurrences rencontrées dans l’étude pour une valeur donnée.Le graphique relie entre eux les points de plus grosses tailles (présentant donc le plus grandnombre d’occurrences).Meriam BELKOURA Master 2 IDKsenia TITOVA 20 / 44 2007/2008
  21. 21. Après avoir étudié le graphique précédant, on remarque que la population concernéeest en bonne santé. Cest-à-dire que les valeurs des variables importantes sont bonnes : le tauxde cholestérol, qui est compris entre 182.0 et 210.0, la pression qui est stable à 118.0. Ladépression est notée sur une échelle minimale de 0.0 à 0.7. On remarque aussi que le pic de latension artériel n’est pas observé. En ce qui concerne le type de douleur, cette variable estpartagé entre A et B. Regardons maintenant le changement des valeurs des ces variables chez la populationâgée de 10 ans de plus. Pour la population de 40-45 ans, on remarque que la situation est changée. Le taux decholestérol est monté de 210 à 341.0, la pression est aussi en augmentation, le pic de latension artériel surcroît jusqu’à 3.0. En ce qui concerne le type de douleur les valeurschangent aussi. Dans l’histogramme suivant on peut voir la répartition de la populationconcernée dans chaque type de douleur : Pour voir l’évolution des paramètres en fonction de l’âge nous pouvons superposer lesdeux graphiques précédents.Meriam BELKOURA Master 2 IDKsenia TITOVA 21 / 44 2007/2008
  22. 22. Zoom Star Superposition : Les informations précédentes on peut compléter par l’affichage de ses données en 3dimensions :Meriam BELKOURA Master 2 IDKsenia TITOVA 22 / 44 2007/2008
  23. 23. 3.2.3 STAT3.2.3.1 Présentation de la méthode La méthode stat permet de représenter graphiquement l’ensemble des valeurs queprend une variable donnée pour l’ensemble des concepts et d’en visualiser la répartition. STAT permet d’appliquer des méthodes, habituellement utilisées pour des donnéesconventionnelles, à des objets symboliques représentés par leur description.Ces méthodes dépendent du type des variables présentes dans la base SODAS avec laquellenous travaillons : les fréquences relatives pour les variables multi nominales, les fréquencesrelatives pour les variables intervalles, les capacités et min/max/mean pour les variables multinominales probabilistes et biplot pour les variables intervalles. Le format de sortie des données sera, suivant le choix de l’utilisateur, un listing oubien un graphique. Les graphiques peuvent être modifiés et personnalisés (figures, formes, couleurs, texte,commentaires ...) par l’utilisateur et ils peuvent également être copiés et sauvegardés.Les fréquences relatives pour les variables multi-nominales : Dans cette méthode, nous étudions la fréquence relative des différentes modalités de lavariable multi nominale en prenant en compte les éventuelles règles relatives à la base surlaquelle nous travaillons.Le graphique associé à la distribution de la variable pourra, suivant le choix de l’utilisateur,être soit un diagramme bâton, soit un diagramme en camembert.Les fréquences relatives pour les variables intervalles :Meriam BELKOURA Master 2 IDKsenia TITOVA 23 / 44 2007/2008
  24. 24. Cette méthode a besoin, en entrée, de 2 paramètres :- une variable intervalle I- un nombre de classes kNous pouvons construire un histogramme pour la variable I sur un intervalle [a,b] découpé enk classes et où a représente la borne inférieure de I et b sa borne supérieure. La méthode vapermettre le calcul de la fréquence relative associée à la classe Ck tout en tenant compte durecouvrement de cette classe Ck par les valeurs intervalles de I et ceci pour tous les objetssymboliques.Les capacités et min/max/mean pour les variables multi nominales probabilistes : La méthode permet de construire un histogramme des capacités des différentesmodalités de la variable considérée. Dans l’histogramme capacité, la capacité d’une modalitéest représentée par l’union des différentes capacités. En ce qui concerne le graphiquemin/max/mean, il associe un diagramme représentant l’étendue et la moyenne de laprobabilité de chaque modalité.Biplot pour les variables intervalles : Ce graphique représente un objet symbolique par un rectangle dans le plan de 2variables sélectionnées par l’utilisateur. La dimension de chaque côté du rectangle correspondà l’étendue de la variation de l’objet symbolique relativement à la variable de l’axe considéré.3.2.3.2 Mise en œuvre de la méthodeLes fréquences relatives pour les variables intervalles Nous étudions la variable dépression et nous découpons notre intervalle en 10 classeset nous constatons qu’ils y’a moins d’individus qui ont une dépression supérieure à 3.Meriam BELKOURA Master 2 IDKsenia TITOVA 24 / 44 2007/2008
  25. 25. A partir de l’histogramme suivant, on pourrait deviner qu’un cholestérol supérieur à 300 estplutôt mauvais et pourrait causer quelques problèmes cardiaques.Les capacités et min/max/mean pour les variables multi nominales probabilistes On remarque que plus l’intensité de la douleur est élevée, plus la moyenne de laprobabilité est faible sans qu’il y’ ai une très grande différence entre les 4 types de douleur.Meriam BELKOURA Master 2 IDKsenia TITOVA 25 / 44 2007/2008
  26. 26. On remarque que la plus part des individus ont des vaisseaux sanguins dans un bonétat, cest-à-dire A. Biplot pour les variables intervalles Etant donné que nous étudions 10 tranches d’âges et que les résultats de l’applicationde cette méthode se superposent, nous allons faire une étude de la pression en fonction ducholestérol sur les tranches d’âge supérieur à 60 ans.Meriam BELKOURA Master 2 IDKsenia TITOVA 26 / 44 2007/2008
  27. 27. Parmi les individus entre 65 et 69 ans, il y a beaucoup de disparités et leurscaractéristiques englobent toutes les autres tranches d’âges. Comme résultat inattendu, nousremarquons que les personnes entre 75-79 ans ont un cholestérol faible et une pressionmoyenne et se retrouvent inclus dans les 70-74 ans. Nous verrons plus tard avec la méthodeSYKSOM que bien que les 75-79 ans et les 70-74 ans soient proches dans l’âge, ils ne sontpas voisins et ne sont pas regroupés dans la même classe. Même la méthode DIV le montrecar les deux tranches d’âges ne se retrouvent pas dans la même classe.3.2.4 DIV (Divisive Clustering on Symbolic Objects)3.2.4.1 Présentations de la méthode DIV est une méthode de classification hiérarchique qui part de tous les objetssymboliques réunis dans une seule classe et procède ensuite par division successive de chaqueclasse selon un critère d’inertie qui perme d’effectuer le découpage en classes. A chaque étape, une classe est divisée en deux classes suivant une question binaire ;ceci permet d’obtenir le meilleur partitionnement en deux classes, conformément àl’extension du critère d’inertie. L’algorithme s’arrête après avoir effectuer k-1 division ; kétant le nombre de classes donné, en entrée, à la méthode par l’utilisateur. Les paramètres importants à saisir sont : les variables qui seront utilisées pour calculerla matrice de dissimilarité et l’extension du critère d’inertie pour définir l’ensemble desquestions binaires utiles pour effectuer le découpage.3.2.4.2 Mise en œuvre de la méthodeAu moment de choisir nos variables, il faut être attentif à deux choses principales :- le domaine de définition des variables doit être ordonné car dans le cas contraire, lesrésultats obtenus seront totalement faux- il n’est pas possible de mélanger des variables dont le domaine de définition est continu avecdes variables dont le domaine de définition est discret.Dans la fenêtre de définition des paramètres de la méthode DIV du logiciel SODAS,l’utilisateur doit choisir entre des variables qualitatives et des variables continues.Trois paramètres doivent également être définis :- la dissimilarité entre 2 objets peut être normalisée ou non. Elle peut être normalisée enchoisissant l’inverse de la dispersion ou bien l’inverse du maximum de la déviation. Ladispersion des variables est, ici, une extension aux objets symboliques de la notion devariance- le nombre k de classes de la dernière partition. La division s’arrêtera après k-1 itérations etla méthode DIV aura calculé des partitions de la classe 2 à la classe k- la méthode DIV offre également la possibilité de créer un fichier partition ; il s’agit d’unfichier texte contenant une matrice (aij) dans laquelle, chaque ligne i∈[1,n] correspond à unobjet et chaque rangée j∈[2,k-1] correspond à une partition en j classes. Ainsi, (aij) signifieque l’objet j appartient à la classe k, dans la partition en j classes.Meriam BELKOURA Master 2 IDKsenia TITOVA 27 / 44 2007/2008
  28. 28. Une fois ces différents paramètres définis, nous pouvons exécuter la méthode DIV. NousObtenons, en sortie, un listing contenant les informations suivantes :- pour chaque partition de 2 à k classes, une liste des objets contenus dans chaque classe ainsique l’inertie expliquée relative à la partition- l’arbre de classification.Nous avons décidé d’effectuer une partition en 5 classes.Nous exécutons DIV sur l’ensemble des variables nominales(variables qualitatives)suivantes :Type_douleurSucreElectroVaisseauLes classes obtenues :PARTITION IN 5 CLUSTERS :-------------------------:Cluster 1 (n=1) :75-79 ansCluster 2 (n=4) :70-74 ans 65-69 ans 55-59 ans 45-49 ansCluster 3 (n=1) :30-34 ansCluster 4 (n=3) :50-54 ans 40-44 ans 35-39 ansCluster 5 (n=1) :60-64 ansExplicated inertia : 83.757166Le pourcentage de l’inertie est élevé.Les individus entre 75 et 79 ans, 30 et 34 ans et 60 et 64 ans se distinguent des autres classeset sont tous seul dans leur classe. Par contre les autres montrent un groupement de certainestranches d’âges sur les critères choisis. Plus particulièrement les 70-74 ans 65-69 ans 55-59ans 45-49 ans qui se retrouvent dans la même classe et les 50-54 ans 40-44 ans 35-39 ans seretrouvent ensemble.Meriam BELKOURA Master 2 IDKsenia TITOVA 28 / 44 2007/2008
  29. 29. L’arbre obtenu en résultat :- the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=1) ! !----1- [vaisseau = 0001] ! ! +---- Classe 2 (Ng=4) ! ! ! !---4- [vaisseau = 0010] ! ! ! ! ! +---- Classe 5 (Nd=1) ! ! ! !----3- [electro = 001] ! ! ! ! ! +---- Classe 4 (Nd=3) ! ! !----2- [type_douleur = 0010] ! +---- Classe 3 (Nd=1)On remarque que ce qui permet de distinguer la classe 3 et les classe 4, 5, 2 c’est le type de ladouleur, entre la classe 4 et les classes 5 et 2 c’est l’électrocardiogramme, entre la classe 5 et2 se sont les vaisseaux, et entre la classe 1 et toutes les autres c’est encore une fois l’état desvaisseaux.3.2.5 TREE (Descision Tree)3.2.5.1 Présentation de la méthode La méthode Tree nous propose un algorithme par agrandissement d’arbres, appliqué àdes données imprécises décrites par des concepts probabilistes. Dans ce contexte, laprocédure de partage récursif peut être vue comme une recherche itérative d’un ensemble deconcepts qui correspond le mieux aux données initiales. A chaque étape, le découpageoptimal est obtenu en utilisant une mesure générale, donnée en paramètre. En sortie, nousobtenons une nouvelle liste d’objets symboliques qui permet éventuellement d’assigner denouveaux objets à une classe.3.2.5.2 Mise en œuvre de la méthodeLa méthode TREE va nous permettre de définir un ensemble organisé des concepts grâce àune procédure récursive de partitionnement.Meriam BELKOURA Master 2 IDKsenia TITOVA 29 / 44 2007/2008
  30. 30. Attention :Les variables de partitionnement doivent avoir été crée gâche à Add-signe- valued variabledans le module DB2SO.Les variables explicatives ne peuvent être mixtes qualitatives et quantitatives à la fois. Il fautfaire un choix entre les deux types de variables.Nous choisissons comme variable de partitionnement : MesurePic.TREE avec des variables explicatives de type quantitativesLes variables explicatives choisies sont :- Pression- Cholester- depression- PicLe nombre de nœuds choisi : 5L’arbre de décision obtenu se lit de la manière suivante :Paramètres de départ :Learning Set : 10 Number of variables : 4 Max. number of nodes: 9 Soft Assign : ( 1 ) FUZZY Criterion coding : ( 3 ) LOG-LIKELIHOOD Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1 Frequency of test set : 0.00L’arbre obtenu :Meriam BELKOURA Master 2 IDKsenia TITOVA 30 / 44 2007/2008
  31. 31. Interprétation de l’arbre :On relève que ce qui peut distinguer entre une mesure de pic normal et une mesure de picanormale est la dépression.Supposons qu’on veuille classer un nouvel individu dans la classe normal ou anormal des« MesurePic » juste en regardant sa pression, son cholesterol, sa dépression et son pic.Dans un premier temps, l’arbre nous dit que pour trancher, nous n’avons besoin que de ladépression. Si cette dernière est supérieure à 1.10 alors l’individu est dans la classe normale,sinon il est dans la classe anormale.TREE avec des variables explicatives de type qualitativesVariables explicatives : Sexe Type_douleur Sucre Electro Angine VaisseauL’arbre obtenu avec des variables explicatives de type qualitatives.Interprétation de l’arbre:Si pour un individu donné l’état des vaisseaux est différent de 1100… alors l’individu est misdans la catégorie anormal (=la classe) en ce qui concerne la mesure de son pic, sinon onregarde le type de la douleur de ce individu, s’il est différent de 1100 alors l’individu estplacé dans la classe normal, sinon nous regardons l’électrocardiogramme de cet individu,s’il est différent de 010 alors l’individu et placé dans la classe normal, sinon il sera classédans la classe anormal.Meriam BELKOURA Master 2 IDKsenia TITOVA 31 / 44 2007/2008
  32. 32. 3.2.6 PCM (Principal Component Analysis)3.2.6.1 Présentation de la méthode La méthode PCM correspond à l’analyse en composante principale classique.Mais au lieu d’obtenir une représentation par points sur un plan factoriel, PCM propose unevisualisation de chaque concept par des rectangles. L’objectif est d’étudier l’intensité desliaisons entre les variables et de repérer les concepts présentant des caractéristiques voisines. La PCM est donc une méthode factorielle de réduction du nombre de caractèrespermettant des représentations géométriques des individus et des variables. La réduction sefait par la construction de nouveaux caractères synthétiques obtenus en combinant lesvariables initiales au moyen des « facteurs ». Les éléments de la matrice de données sont desintervalles et chacun décrit la variation de la variable observée (minimum et maximum). Laméthode n’accepte que les variables continues.L’exécution de la méthode nous donne deux résultats :1 - Le listing qui contient :- La description de la matrice de données par une table : chaque ligne correspond à une classe.- Les valeurs propres, le pourcentage d’inertie et les premières composantes principales.Chaque classe est caractérisée d’abord par deux composantes principales et visualisée dans unplan factoriel par un rectangle.- Les corrélations entre chaque variable descriptive et les composantes principales.2 - Une représentation graphique des objets symbolique difficile à interpréter où chaque objetest représenté par un rectangle.3.2.6.2 Mise en œuvre de la méthodeLa méthode accepte seulement les variables continues, en entrée.Nous avons choisi d’analyser chaque tranche d’âge suivant les variables continues suivantes:pressioncholesterdepressionpicLes intervalles des variables descriptives sont les suivants :- 94 à 200 pour la pression- 126 à 14 564 pour le cholester- 0 à 6.2 pour la depression- 1 à 3 pour le picNous obtenons alors la matrice de données ci-dessous représentant l’ensemble des intervallesdes variables pour chacun des concepts ainsi que la matrice de corrélations entre nos 4variables.pression cholester depression picMeriam BELKOURA Master 2 IDKsenia TITOVA 32 / 44 2007/2008
  33. 33. "70-74 ans" [110.00 , 160.00] [149.00 , 322.00] [0.00 , 2.90] [1.00 , 3.00]"65-69 ans" [100.00 , 180.00] [177.00 , 564.00] [0.00 , 2.80] [1.00 , 3.00]"55-59 ans" [100.00 , 200.00] [126.00 , 409.00] [0.00 , 5.60] [1.00 , 3.00]"60-64 ans" [102.00 , 180.00] [164.00 , 407.00] [0.00 , 6.20] [1.00 , 3.00]"50-54 ans" [94.00 , 192.00] [175.00 , 325.00] [0.00 , 4.20] [1.00 , 3.00]"40-44 ans" [102.00 , 152.00] [141.00 , 341.00] [0.00 , 3.00] [1.00 , 3.00]"45-49 ans" [101.00 , 150.00] [149.00 , 311.00] [0.00 , 3.60] [1.00 , 3.00]"35-39 ans" [94.00 , 140.00] [183.00 , 321.00] [0.00 , 3.80] [1.00 , 3.00]"75-79 ans" [125.00 , 140.00] [197.00 , 304.00] [0.00 , 1.10] [1.00 , 2.00]"30-34 ans" [118.00 , 118.00] [182.00 , 210.00] [0.00 , 0.70] [1.00 , 1.00]Correlations Matrix : pression 1.0000 0.0619 0.0708 0.0462 cholester 0.0619 1.0000 0.0469 0.0600 depression 0.0708 0.0469 1.0000 0.0970 pic 0.0462 0.0600 0.0970 1.0000 Les corrélations entre nos 4 variables sont plutôt faibles.Si nous regardons la plus grande corrélation, nous soupçonnions une forte liaison entre lenombre de pic et la dépression, ce résultat nous allons le retrouver dans la méthode TREE.3.2.7 SCLUST (Symbolic Dynamic Clustering)3.2.7.1 Présentations de la méthode La méthode SCLUST peut être utilisée pour partitionner un ensemble de n élémentssymboliques en nombre m de classes homogènes. Ce nombre de classes peut être fixé parl’utilisateur.En entrée de cette méthode c’est à l’utilisateur de choisir les paramètres qui selon lui serontles plus parlant pour regrouper les données en classes.Cette méthode construit les partitions de l’ensemble des données symboliques selon lacombinaison des mesures approximatives et des prototypes. SCLUST permet de choisir lesdifférents types de dissimilarité et de prototypes. Si les variables choisies ont des types différents il existe la possibilité de normaliser ladistance entre l’objet et le prototype.3.2.7.2 Mise en œuvre de la méthode On applique cette méthode sur notre base de données symboliques, en choisissant les 5variables telle que age, type de douleur, pression, cholestérol, dépression.Meriam BELKOURA Master 2 IDKsenia TITOVA 33 / 44 2007/2008
  34. 34. Les données suivantes donnent les information sur les classes crées par cette méthodes : Learning Set : 10 Number of variables : 5 Number of iterations : 20 Number of classes : 3 Initialisation : 0 random prototypes Number of runs : 10 Quantitative distance: 0 Hausdorff Distance Boolean distance : 0 De Carvalho Distance Modal distance : 0 De Carvalho Distance Normalize : 0 Yes NBCLUST procedure : 0 Yes STABCLUST procedure : 0 Yes Initial Criterion : 976.288774 GROUP OF SELECTED VARIABLES : ============================= ( Pos ) Tj Tj Weight Name Type initial used ( 1 ) 12.91 20.00 0.079365 age INTERVAL ( 3 ) 0.14 20.00 7.200591 type_douleur MODAL 4 Modalities ( 4 ) 21.71 20.00 0.047170 pression INTERVAL ( 5 ) 63.92 20.00 0.016026 cholester INTERVAL ( 9 ) 1.32 20.00 0.775194 depression INTERVAL LIST OF SYMBOLIC OBJECTS IN THE SET : ===================================== 30-34 ans 35-39 ans 40-44 ans 45-49 ans 50-54 ans 55-59 ans 60-64 ans 65-69 ans 70-74 ans 75-79 ansEDITION OPTIMAL PARTITION ========================= Classe : 1 Cardinal : 1 =============================== ( 0) 30-34 ans [-1.$] Classe : 2 Cardinal : 6 =============================== ( 1) 35-39 ans [1.1] ( 2) 40-44 ans [0.3] ( 3) 45-49 ans [0.3] (4) 50-54 ans [1.1] ( 8) 70-74 ans [1.0] ( 9) 75-79 ans [2.2] Classe : 3 Cardinal : 3 =============================== ( 5) 55-59 ans [0.7] ( 6) 60-64 ans [0.3] ( 7) 65-69 ans [2.0]Meriam BELKOURA Master 2 IDKsenia TITOVA 34 / 44 2007/2008
  35. 35. L’image suivante nous présente les classes créées selon les axes age et cholestérol :3.2.8 SYKSOM (Kohonen Self-Organizing Map for Symbolic Data)3.2.8.1 Présentations de la méthode Cette méthode permet d’appliquer des cartes de Kohonen à des ensembles de donnéesquantitatives classiques et symboliques de type intervalle dans le but de répartir ces donnéesdans des partitions homogènes. Le but est de représenter des centres de classes dans une grillede tél manière que deux classes qui se ressemblent aient leurs centres proches dans la grille. Voici le principe de construction de la grille : K centres sont positionnés au hasard sur la grille lorsqu’il s’agit de définir k classes.Les k points sont ensuite positionnés dans l’espace des données ce qui donnera des centrespositionnés n’importe où dans l’espace.Ensuite, on affecte chaque individu à l’un des centres avec lequel il est le plus proche (onobtient ainsi des classes Ci), puis on modifie la position des k centres initiaux (précédents) defaçon à les placer le plus proche du centre de leurs classes puis on rapproche les autrescentres de ce centre d’autant plus qu’ils sont proches de lui dans la grille initiale.3.2.8.2 Mise en œuvre de la méthodeLes paramètres d’entrée Voici les paramètres d’entrée qui nous ont parus être les plus importants.La méthode de partitionnement choisie est : stochastic approximationnumber of lines : nombre les lignes horizontaux dans la grilleprecision threshold : seuil de précision avec laquelle les données d’intervalle (individus) sontplacés dans les partitions.Eps : après avoir assigné une donnée d’intervalle dans une partition, le centre de cettepartition est remis à jour ainsi que les centres des partitions voisines dans la grille. Ainsi sieps=1, cela signifie que seuls les voisins directs seront remis à jour.Meriam BELKOURA Master 2 IDKsenia TITOVA 35 / 44 2007/2008
  36. 36. Kernel : permet de choisir avec quelle distance « le seuil de précision » est calculé.Learning factor : facteur d’apprentissage.Interprétation de la carte de KohonenDans le fichier résultat :METHOD=SYKSOM Version 12/20/03 Aachen 2003 BASE = C:Documents andSettingsAdministrateurBureauprojet_dataheart21.sds Number of columns a = 5 Number of rows b = 5 Number of Symbolic Objects = 10 Number of variables = 5 Number of clusters (neurons) = 25 Dimension of vectors = 5 Exponential kernel Distance : Vertex-type distanceVoici la liste des clusters qui contiennent des objets symboliques, c’est à dire les clusters quine sont pas vides.Cluster 2 ( 1x2) Size 1List of objects:( 10) 30-34 ansCluster 6 ( 2x1) Size 1List of objects:( 9) 75-79 ansCluster 10 ( 2x5) Size 1List of objects:( 4) 60-64 ansCluster 14 ( 3x4) Size 1List of objects:( 3) 55-59 ansCluster 15 ( 3x5) Size 1List of objects:( 2) 65-69 ansCluster 17 ( 4x2) Size 3List of objects:( 6) 40-44 ans( 7) 45-49 ans( 8) 35-39 ansCluster 22 ( 5x2) Size 1List of objects:( 1) 70-74 ansCluster 23 ( 5x3) Size 1List of objects:( 5) 50-54 ans Nous avons 10 objets symboliques qui seront placé dans 25 cellules (neurones oupartitions), car nous avons une gille de taille 5*5.Meriam BELKOURA Master 2 IDKsenia TITOVA 36 / 44 2007/2008
  37. 37. Les cercles représentent le nombre d’individus dans la classe (la partition)Les rectangles représentent le volume, l’étendue de la partition. Nous remarquons dans la cartes que les cellules 5*2, 5+3 et 4*2 sont voisines et ellescontiennent respectivement, les individus dont l’âge est entre 70-74 ans pour la cellule 5*2,50-54 ans pour la cellule 5*3 et 40-44 ans, 45-49 ans, 35-39 ans pour la cellule 4*2 ce quimontrent que ces trois tranches d’âge qui sont dans la même cellule représentent beaucoup desimilitudes. Les concepts présents dans les cellules voisines cités présentent des pointscommuns suivants quelques variables.Lorsqu’on clique droit sur une cellule, par exemple 4*2 qui contient 3 concepts et qu’onsélectionne « paralléle », ce graphe difficile à interpréter apparait.3.2.9 DISS (Descriptive Measures)3.2.9.1 Présentation de la méthodeMeriam BELKOURA Master 2 IDKsenia TITOVA 37 / 44 2007/2008
  38. 38. La méthode DISS permet de comparer dans l’ordre les objets symboliques enquantifiant les corrélations existantes, en les mettant dans les classes ou en les discriminant.Les résultats obtenus par cette méthode permettent de comprendre, mesurer et identifier lesgroupes des objets symboliques et peuvent être appliqués dans les autres méthodesstatistiques ou dans les certaines tâches de Data Mining.En particularité la méthodes DISS permet de comparer dans l’ordre les objets symboliquesafin d’évaluer leur dissimilarité et de visualiser les résultats graphiquement dans l’éditeurVDISS. En entrée de cette méthode on peut choisir soit un ensemble complet des variablessymboliques soit juste une partie de l’ensemble. Ces variables peuvent être de type suivant :intervalle, quantitatif, modale, multi value.3.2.9.2 Mise en œuvre de la méthode En appliquant cette méthode sur notre ensemble des objets symboliques en choisissantplusieurs variables (pression, cholestérol et dépression) nous obtiendrons la matrice dedissimilarité suivante :Meriam BELKOURA Master 2 IDKsenia TITOVA 38 / 44 2007/2008
  39. 39. Ces résultats on peut présenter sous la forme d’un graphique : Après avoir analysé les résultats précédents, on peut remarquer qu’il y a un grand saut,une évolution rapide des valeurs en passant de la tranche d’âge 30-34 à 35-39. La tranched’âge 30-34 a aussi une grande dissimilarité avec les autres, ce que peut signifier que c’estaprès 35 ans que la santé se dégrade.Meriam BELKOURA Master 2 IDKsenia TITOVA 39 / 44 2007/2008
  40. 40. 3.2.10 HIPYR (Hierarchical and Pyramidal Clustering )3.2.10.1 Présentation de la méthode La méthode HIPYR est utilisée pour une classification pyramidale ou hiérarchiqued’un ensemble de données symboliques. VPYR est un éditeur graphique automatiquement lié à HIPYR. En entrée de cette méthode, l’utilisateur doit choisir les variables qui seront utiliséespour construire la pyramide (hiérarchie). Ces variables peuvent être quantitatives, desintervalles de valeurs réelles, nominales, multinominales et/ou modales. L’utilisateur estinvité à choisir entre des variables qualitatives et continues mais il lui est également possiblede les mélanger. La pyramide constitue un modèle intermédiaire entre les arbres et les structures entreillis. Cette méthode permet de classer des données plus complexes que ce qu’autorisait lemodèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. Lapyramide est construite par un algorithme d’agglomération opérant du bas (les objetssymboliques) vers le haut (à chaque niveau, des classes sont agglomérées). Dans une classification pyramidale, chaque classe formée est définie non seulementpar une extension (l’ensemble de ses éléments) mais aussi par un objet symbolique qui décritses propriétés (l’intention de la classe). L’intention est héritée d’un prédécesseur vers sonsuccesseur et nous obtenons ainsi une structure d’héritage. La structure d’ordre permet l’identification de concepts intermédiaires ; cest-à-dire deconcepts qui comblent un vide entre des classes bien identifiées.3.2.10.2 Mise en œuvre de la méthode Dans notre exemple d’étude on applique cette méthode sur plusieurs concepts (unepopulation de 30 à 69 ans) et sur les variables suivantes : type de douleur, sucre, cholestérol. On obtient la pyramide suivante : Dans le graphique précédent on observe les 7 classes crées. On remarque, ce qui estassez naturel, que les concepts successifs sont réunis en une classe. Les valeurs des variablesqui les constituent sont voisines. Le graphique suivant nous montre les valeurs des hauteursde chaque classe.Meriam BELKOURA Master 2 IDKsenia TITOVA 40 / 44 2007/2008
  41. 41. 3.2.11 DCLUST (Clustering Algorithm based on Distance Tables)3.2.11.1 Présentation de la méthode Le but de cette méthode est de regrouper un grand ensemble d’objets symboliques endes classes homogènes. Le critère de classification est basé sur la somme de dissimilarités entre des individusappartenant à la même classe et d’essayer de minimiser le critère de classification par le choixconvenable de la classe. Ces fonctions (de similarité et de dissimilarité) peuvent prendre enconsidération les dépendances (hiérarchique ou logique) entre les variables. La table de dissimilarité peut être crée de la façon suivante : - grâce au logiciel SODAS ou ASSO en utilisant la méthodes DISS ou MATCH. - ou directement par la fonction de proximité qui peut prendre en considération les dépendances entre les variables.En entrée de cette méthode on passe le ASSO file qui contient la table de dissimilarité. Et lenombre de classes peut être fixé par l’utilisateur.3.2.11.2 Mise en œuvre de la méthode Pour pouvoir utiliser cette méthode on utilise le fichier de la méthode DISS créeprécédemment, afin d’avoir la table de dissimilarité en entrée. On obtient plusieurs fichiers résultant.Meriam BELKOURA Master 2 IDKsenia TITOVA 41 / 44 2007/2008
  42. 42. 1 fichier présentant les données suivantes : Number of SO : 10 Learning Set : 10 Number of variables : 11 Number of iterations : 20 Number of classes : 4 Initialisation : 1 random partition Number of runs : 10 Initial Criterion : 2.150399 LIST OF SYMBOLIC OBJECTS IN THE SET : ===================================== 30-34 ans 35-39 ans 40-44 ans 45-49 ans 50-54 ans 55-59 ans60-64 ans 65-69 ans 70-74 ans 75-79 ansLes classes créées :EDITION PARTITION SELECTED ========================== Classe : 1 Size : 1 Weight : 1.00 Criterion : 0.000000 (0.00%)( 1) 30-34 ans [1.0] Classe : 2 Size : 5 Weight : 5.00 Criterion : 0.693404 (71.74%)( 2) 35-39 ans [1.0] ( 3) 40-44 ans [0.6] ( 4) 45-49 ans [0.0]( 9) 70-74 ans [0.9] ( 10) 75-79 ans [2.5] Classe : 3 Size : 1 Weight : 1.00 Criterion : 0.000000 (0.00%)( 8) 65-69 ans [1.0] Classe : 4 Size : 3 Weight : 3.00 Criterion : 0.273120 (28.26%)( 5) 50-54 ans [2.0] ( 6) 55-59 ans [1.0] ( 7) 60-64 ans [0.0] PARTITION DESCRIPTION ===================== INITIAL CRITERION : 2.150399 FINAL CRITERION : 0.966525 Percentage of the explained criterion : 55.05Meriam BELKOURA Master 2 IDKsenia TITOVA 42 / 44 2007/2008
  43. 43. Le 2ème fichier permet de présenter les classes formées à l’aide de graphe que l’on peutprésenter sous différents axes :Et le 3ème fichier, l’éditeur VSTAR, permettant de présenter le tableau des valeurs des classesengendrées :Meriam BELKOURA Master 2 IDKsenia TITOVA 43 / 44 2007/2008
  44. 44. 4 CONCLUSIONLa réalisation de ce projet a été pour nous l’occasion de découvrir un logiciel puissantd’analyse de données symboliques : le logiciel SODAS. Cet outil nous a permis d’extraire desconnaissances d’une importante base de données relationnelles et d’appliquer des méthodesde statistique descriptive, de dissimilarité, de clustering et de discrimination.La grande flexibilité de ce logiciel associée à la puissance de ses diverses représentationsgraphiques a mis en évidence des résultats pertinents et facilement interprétables et de révélerdes faits que nous ne soupçonnions pas comme le fait qu’il y ai un lien entre la dépression etla présence d’un nombre de pics anormaux dans l’électrocardiogramme. A partir desdéductions faites sur cette étude, nous avons pu élargir le problème à d’autres champs,d’autres questions auxquels il serait intéressant de trouver des réponses comme : y’a-t-il unlien entre certains paramètres cardiaques et un risque de décès. Répondre à cette questionpourrait aider certains médecins à anticiper sur certains traitements.Cette étude peut aussi être affinée en rajoutant d’autres variables comme la consommation denicotine, le poids, le périmètre abdominal, la profession et l’origine ethnique.Meriam BELKOURA Master 2 IDKsenia TITOVA 44 / 44 2007/2008

×