Advertisement
Advertisement

More Related Content

Advertisement

Cours datamining

  1. Plan du cours 1. Introduction au Data Mining  processus d'extraction de connaissance: conception d'un processus de DM 2. Compréhension et préparation des données  caractéristiques des différents types de la donnée  exploration statistique des données  qualité des données  preprocessing: sélection et création des attributs  mesures de similarité entre les données 3. les techniques du Data Mining  classification techniques de base: les arbres de décision techniques de base: ensemble des règles et techniques instances based les classificateurs bayesiens  règles associatives ou d'association  clustering  détection des anomalies (Outlier) 4. TP sur WIKA 16/05/2017 2
  2. Informatique décisionnelle • L’informatique décisionnelle (en anglais :DSS pour Decision Support System), s’insère dans l’architecture plus large d’un système d'information. • L’informatique décisionnelle représente un ensemble de moyens, d’outils et de méthodes permettant de collecter, consolider, modéliser et de restituer les données de l’entreprise dans le but d’apporter une aide à la prise de décision. • Un autre atout de l’informatique décisionnelle est de permettre aux responsables de la stratégie d’une entreprise d’avoir une vue d’ensemble de l’activité traitée. Rappel 16/05/2017 3
  3. • Tous les systèmes d’information décisionnelles ,tels que les datawerhouses mettent en œuvre cinq fonctions fondamentales: la collecte l’intégrité la diffusion la présentation l’administration des données Rappel Informatique décisionnelle 16/05/2017 4
  4. Informatique décisionnelle La collecte: La collecte des données brutes dans leurs environnements d’origine, ce qui implique des activités plus ou moins élaborées de détection et de filtrage, car un excédent de données, un défaut de fiabilité ou un trop mauvais rapport signal/bruit sont pires que l’absence de données. L’intégrité: L’intégration des donnes ,c’est-à-dire leur regroupement en un ensemble technique, logique et sémantique homogène approprié aux besoins de l’organisation. La diffusion: Diffusion, ou la distribution d’informations élaborées à partir des données dans des contextes appropriés au besoin des individus ou des groupes de travail utilisateurs. Rappel 16/05/2017 5
  5. Informatique décisionnelle la présentation : La présentation, c’est-à-dire les conditions de mise à disposition de l’information (contrôle d’accès, personnalisation ..). l’administration des données: L’administration qui gère l’ensemble de données de bout en bout ,car le système d’information doit être contrôlé par un système de pilotage.  Remarque: en pratique, les fonctions de collecte et d’intégration sont étroitement liées entre elles et généralement associées au datawerhouse. Rappel 16/05/2017 6
  6. Datawerhouse • datawarehouse (ou entrepôt de données) est un serveur informatique dans lequel est centralisé un volume important de données consolidées à partir des différentes sources de renseignements d'une entreprise (notamment les bases de données internes). • L'organisation des données est conçue pour que les personnes intéressées aient accès rapidement et sous forme synthétique à l'information stratégique dont elles ont besoin pour la prise de décision. Rappel 16/05/2017 7
  7. Datawerhouse Ensemble de techniques d'exploration de données afin d'en tirer des connaissances (la signification profonde) sous forme de modèles présentés à l’utilisateur averti pour examen c’est le Datamining Le passage du datawerhouse vers le datamining Fig1.du datawerhouse vers le datamining 16/05/2017 8
  8. Processus de découverte d’information Le passage du datawerhouse vers le datamining Fig2.decouverte de l’information 16/05/2017 9
  9. Etape du processus 1. Compréhension du domaine d’application 2. Création du fichier cible (target data set) 3. Traitement des données brutes (data cleaning and preprocessing) 4. Réduction des données (data réduction and projection) 5. Définition des tâches de fouille de données 6. Choix des algorithmes appropriés de fouille de données 7. Fouille de données (data mining) 8. Interprétation des formes extraites (mined patterns) 9. Validation des connaissances extraites Le passage du datawerhouse vers le datamining 16/05/2017 10
  10. Datamining • Qu’est-ce que le datamining • Pourquoi la naissance du datamining? • Intérêt du data mining • Méthodes et technique du datamining • Grands domaine d’Application du datamining • Le processus standard d’une étude de datamining • Les logiciels de datamining 16/05/2017 11
  11. Qu’est-ce que le Datamining • Le data mining est un procédé d’exploration et d’analyse de grands volumes de données en vue d’une part de les rendre plus compréhensibles et d’autre part de découvrir des corrélations significatives, c’est-à-dire des règles de classement et de prédiction dont la finalité ultime la plus courante est l’aide à la décision. • Le data mining est un procédé de production de connaissance. • En termes de logique philosophique traditionnelle, le data mining consiste à produire des jugements c’est l’étape de description et de compréhension des données) et des règles de raisonnements (si toutes les personnes sont « a » alors elles seront « b » : c’est l’étape modélisation qui permet la prédiction). Datamining 16/05/2017 12
  12. Pourquoi la naissance du datamining ? Augmentation des capacités de stockage des données (disques durs de giga octets). Augmentation des capacités de traitement des données (facilité d’accès aux données : il n’y a plus de bandes magnétiques ; accélération des traitements). Maturation des principes des bases de données (maturation des bases de données relationnelles). Croissance exponentielle de la collecte des données (scanners de supermarché, internet, etc.) Croissance exponentielle des bases de données : capacités atteignant le terabits (1012 bits) et émergence des entrepôts de données : data warehouse, rendant impossible l’exploitation manuelle des données. Plus grande disponibilité des données grâce aux réseaux (intranet et internet). Développement de logiciels de data mining. Datamining 16/05/2017 13
  13. Intérêt du datamining Le datamining permet d’exploiter ces données pour améliorer la rentabilité d’une activité. Le datamining permet d’augmenter le retour sur investissement des systèmes d’information. Le datamining est un outil qui permet de produire de la connaissance :  dans le but de comprendre les phénomènes dans un premier temps : SAVOIR  dans le but de prendre des décisions dans un second temps : PREVOIR pour DECIDER. Datamining 16/05/2017 14
  14. Méthodes du data mining • Du bon sens: Il s’agit d’abord d’analyser les données avec du bon sens et un peu d’outillages mathématiques et statistiques élémentaires. • Des algorithmes de calculs statistiques: Il s’agit ensuite d’appliquer des algorithmes de calculs à des données. Ces algorithmes sont plus ou moins complexes à mettre en œuvre. Ils permettent de classer les données et de prédire des valeurs inconnues. Datamining 16/05/2017 15
  15. Les techniques du datamining La production de règles de raisonnement se fait à partir de plusieurs techniques plus ou moins spécifiques au data mining à savoir: Classification les arbres de décision ensemble des règles et techniques instances based les classificateurs bayesians Règles associatives ou d'association Clustering Ces techniques mixent à la fois des statistiques et de l’algorithmique. Globalement, on peut dire que certaines techniques visent à classer, d’autres visent à prédire. La présentation de ces techniques formera une grosse partie de ce cours. Datamining 16/05/2017 16
  16. Applications du datamining • Publics: Le scientifique : pour comprendre certains phénomènes. L’analyste : pour produire des rapports pour les décideurs. Le décideur (au sens large) : pour l’aide à la décision. • Principaux secteurs utilisant le data mining: Les banques Les télécommunications Le e-commerce La détection des fraudes Les études scientifiques Le marketing direct Les assurances La distribution La biologie L’industrie pharmaceutique Datamining 16/05/2017 17
  17. Gestion de la relation client Customer Relationship Management (CRM) • Principe : amélioration de la rentabilité par l’amélioration de la connaissance du client. • Matière première : les données sur le client. • Le CRM se divise en deux parties : • CRM analytique : collecte et analyse des données. • CRM opérationnel : choix des campagnes marketing (stratégie) et gestion des canaux de communication (forces commerciales, centres d’appel téléphoniques, internet, télévision, etc.) • Difficulté : tirer partie de la masse de données. Ne pas se noyer dedans. Datamining 16/05/2017 18
  18. • Objectif : on ne veut plus seulement savoir : « combien de clients ont acheté tel produit pendant telle période ?», mais on veut savoir « quel est leur profil ? », « quels autres produits les intéresseront ? », « quand seront-ils de nouveau intéressés ? ». • Avec le datamining, on va s’intéresser à l’historique des données, autrement dit à un film du comportement de la variable étudiée (par exemple, le client) et pas seulement à une photographie. • Le développement des systèmes d’informations avec des bases de données favorise la collecte de l’historique des données et les études de data mining. Et inversement : c’est parce qu’on pourra tirer quelque chose de ces historiques qu’on aura intérêt à les conserver. • Les systèmes d’information permettent de connaître le comportement singulier de chaque client. • Le datamining permet de découvrir des corrélations statistiques grâce à l’étude des comportements de tous les clients, et ainsi de catégoriser le client et de pouvoir établir un marketing individualisé (one-to-one) et proactif (proposer ce qui est intéressant au moment où ça intéresse). Datamining 16/05/2017 19
  19. Autres grands domaines d’application Secteur bancaire : le scoring, pour mieux cibler les propositions de prêts et éviter les surendettements (et donc les mauvais payeurs). Secteur de la téléphonie : prédiction de l’attrition (usure, churn en anglais), c’est-à-dire le changement d’opérateur. Grande distribution : analyse du panier de la ménagère pour déterminer les produits achetés simultanément. Web mining et e-commerce : 50% des clients d’un constructeur de machine achètent ses machines à travers le web. Mais seulement 0,5% des visiteurs du site deviennent clients. L’idée est de stocker les séquences de click des visiteurs et d’analyser les caractéristiques des acheteurs pour adapter le contenu du site. Text mining pour analyser les lettres de réclamation. Scientifique : identification et classification d'objets célestes. Médical : analyse de résultat d’une expérimentation Sécurité informatique : recherche de transactions frauduleuses par la police suivi des opérations des traders. Datamining 16/05/2017 20
  20. Une discipline et pas un produit • À l’origine, le datamining était vue comme un procédé automatique o semi automatique. • Aujourd’hui, on est revenu de cette illusion. Le datamining n’est pas un produit qui peut être acheté, mais bien une discipline qui doit être maîtrisée. • Avant d’appliquer automatiquement des algorithmes de calculs sur les données, il faut passer par une phase d’exploration et d’analyse qui ne saurait être automatisée : elle fait intervenir le bon sens et la connaissance du contexte (culture générale). • Quand on veut produire de la connaissance, le problème ne se limite pas à répondre à des questions. Il faut d’abord poser les questions. C’est cette première étape qui, pour l’essentiel, fait que le datamining est une discipline et pas un simple produit. Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining 16/05/2017 21
  21. Comment faire du mauvais datamining ? En travaillant sans méthode En ne préparant pas correctement ses données. En appliquant des boîtes noires de calculs sans les comprendre. Un mauvais datamining peut amener à des conclusions erronées et donc à des conséquences très coûteuses. Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining 16/05/2017 22
  22. Comment faire du bon datamining ? En suivant une méthode En préparant les données correctement En comprenant le principe des modes opératoires (des algorithmes de calculs). En étant capable de savoir pourquoi on en choisit un plutôt qu’un autre. Une compréhension des modèles statistiques appliqués par le logiciel est donc nécessaire. Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining 16/05/2017 23
  23. • Le datamining est un processus méthodique : une suite ordonnée d'opérations aboutissant à un résultat. • Le CRISP-DM (Cross Industry Standard Process for Data Mining) décrit le datamining processus itératif complet constitué de 4 étapes divisées en tout en 6 phases. Le processus standard d’une étude de data mining: Présentation du CRISP-DM tableau1.processus du datamining 16/05/2017 24
  24. 1 : Compréhension du métier Cette phase consiste à :  Énoncer clairement les objectifs globaux du projet et les contraintes de l’entreprise.  Traduire ces objectifs et ces contraintes en un problème du datamining.  Préparer une stratégie initiale pour atteindre ces objectifs. 2 : Compréhension des données Cette phase consiste à :  Recueillir les données.  Utiliser l’analyse exploratoire pour se familiariser avec les données, commencer à les comprendre et imaginer ce qu’on pourrait en tirer comme connaissance.  Évaluer la qualité des données.  Éventuellement, sélectionner des sous-ensembles intéressants. Le processus standard d’une étude de data mining: Présentation du CRISP-DM 16/05/2017 25
  25. 3 : Préparation des données Cette phase consiste à :  Préparer, à partir des données brutes, l’ensemble final des données qui va être utilisé pour toutes les phases suivantes.  Sélectionner les cas et les variables à analyser.  Réaliser si nécessaire les transformations de certaines données.  Réaliser si nécessaire la suppression de certaines données. Cette phase fait suite à la compréhension des données. Celle-ci a mis au jour les corrélations, les valeurs aberrantes, les valeurs manquantes : on peut donc faire la préparation. 4 : Modélisation Cette phase consiste à :  Sélectionner les techniques de modélisation appropriées (souvent plusieurs techniques peuvent être utilisées pour le même problème).  Calibrer les paramètres des techniques de modélisation choisies pour optimiser les résultats.  Éventuellement revoir la préparation des données pour l’adapter aux techniques utilisées. Le processus standard d’une étude de data mining: Présentation du CRISP-DM 16/05/2017 26
  26. 5 : Evaluation de la modélisation Cette phase consiste à produire le rapport final :  Pour chaque technique de modélisation utilisée, évaluer la qualité (la pertinence, la signification) des résultats obtenus.  Déterminer si les résultats obtenus atteignent les objectifs globaux identifiés pendant la phase de compréhension du métier.  Décider si on passe à la phase suivante (le déploiement) ou si on souhaite reprendre l’étude en complétant le jeu de données. 6 : Déploiement des résultats obtenus Cette phase est externe à l’analyse du data mining. Elle concerne le maître d’ouvrage. Cette phase consiste à :  Prendre les décisions en conséquences des résultats de l’étude de data mining  Préparer la collecte des informations futures pour permettre de vérifier la pertinence des décisions effectivement mis en oeuvre. Le processus standard d’une étude de data mining: Présentation du CRISP-DM 16/05/2017 27
  27. Les logiciels de data mining Il existe de nombreux logiciels de statistiques et de data mining sur PC. Certains sont gratuits, d’autres sont payants. Certains sont mono- utilisateur. D’autres fonctionnent en architecture clients-serveur. • Parmi les gros logiciels, on peut citer : • Clementine de SPSS. Clementine est la solution de data mining la plus vendue dans le monde. • Entreprise Miner de SAS. • Statistica Data Miner de StatSoft • XL Miner (data mining sous excel) • ORACLE, comme d’autres SGBD, fournit des outils de data mining • Parmi les logiciels gratuits, on peut citer : • TANAGRA, logiciel de data mining gratuit pour l'enseignement et la recherche. • ORANGE, logiciel libre d’apprentissage et de data mining. • WEKA, logiciel libre d’apprentissage et de data mining. Datamining 16/05/2017 28
  28. WEKA • Weka 3: Data Software Mining en Java • Weka est une collection d'algorithmes d'apprentissage machine pour les tâches d'exploration de données. Les algorithmes peuvent être soit appliquées directement à un ensemble de données ou appelés à partir de votre propre code Java. • Weka contient des outils pour les données de pré-traitement, la classification, la régression, le regroupement, les règles d'association, et la visualisation. • Il est également bien adapté pour le développement de nouveaux programmes d'apprentissage machine. • Site web: http://www.cs.waikato.ac.nz/ml/weka/ Datamining 16/05/2017 29
  29. Environnement de travail • Se familiariser avec : • weka • Les dataset • Eclipce 16/05/2017 30
  30. Références • Laurent Candillier. Classification non supervis´ee contextualis´ee, 2003. • Ultra Fluide. Tour d’horizon sur le datamining, 2003. url : http://www.ultra- fluide.com/agence-web/datamining.htm. • Giorgio Ingargiola. Building Classification Models : ID3 and C4.5, 1997. url : http://www.cis. temple.edu/˜ingargio/cis587/readings/id3-c45.html. • Mathieu Beal Paul Balez. Algorithmes de datamining. 2002. • J ¨org Sander Martin Ester Hans-Peter Kriegel Xiaowei Xu. Density-Based Clustering in Spatial Databases : The Algorithm GDBSCAN and its Applications. • Martin Ester Hans-Peter Kriegel J ¨org Sander Xiaowei Xu. ADensity-Based Algorithm for Discovering Cluster in Large Spatial Databases with Noise, 1996. • Xiaowey XU. A Fast Parallel Clustering Algorithm for Large Spatial Databases, 1999. 16/05/2017 31
  31. Plan • Classification supervisée • Les arbres de décision • Définition • Vocabulaire des arbres • Exemple d’arbre de décision • Algorithme CART • Algorithme ID3 • Algorithme C4.5 • TP Arbre de décisions
  32. Apprentissage supervisé En sciences cognitives, l’apprentissage supervisé est une technique d’apprentissage automatique plus connu sous le terme anglais de machine- learning qui permet à une machine d’apprendre à réaliser des tâches à partir d’une base d’apprentissage contenant des exemples déjà traités. Chaque élément (item) de l’ensemble d’apprentissage (training set) étant un couple entrée-sortie. De part sa nature, l’apprentissage supervisé concerne essentiellement les méthodes de classification de données (on connaît l’entrée et l’on veut déterminer la sortie) et de régression (on connaît la sortie et l’on veut retrouver l’entrée).
  33. Arbres de décision L’arbre de décision est un outil de classification et prédiction, sa popularité repose en grande partie sur sa simplicité. Un arbre de décision est composé d’un nœud racine par lequel entrent les données, de nœuds feuilles qui correspondent à un classement de questions et de réponses qui conditionnent la question suivante. C’est un processus interactif d’induction de règles qui permet d’aboutir à une affectation bien justifiée. Le branchement des nœuds passe par le calcul de différents critères selon l’algorithme choisi. Il existe différents algorithmes pour la construction des arbres de décision tels qu’ID3, C4.5, CHAID et CART et bien d’autres que nous allons voir en détails dans la partie concernant la présentation des algorithmes.
  34. Un arbre est constitué de noeuds connectés entre eux par des branches. Un arbre de décision est constitué de noeuds de décision. Une branche entre deux noeuds est orientée : l’un des noeuds de la connexion est dit « noeud parent », et l’autre « noeud enfant ». Chaque noeud est connecté à un et un seul noeud parent, sauf le noeud racine qui n’a pas de parent. Vocabulaire des arbres Arbre, noeud, racine, feuille
  35. Chaque noeud peut être connecté à 0 ou n noeuds enfants. Les deux caractéristiques précédentes font qu’un arbre n’est pas un réseau (ou graphe). Un noeud qui n’a pas de parents est appelé « noeud racine » ou « racine ». Un noeud qui n’a pas de noeuds enfants est appelé « noeud feuille » ou « feuille ». Vocabulaire des arbres Arbre, noeud, racine, feuille
  36. Exemple d’arbre binaire orienté Vocabulaire des arbres
  37. Variable cible et variables prédictives • Comme toutes les méthodes supervisées, un arbre de décision travaille sur une variable cible avec plusieurs variables prédictives. • Chaque noeud non-feuille correspond à une variable prédictive. • Chaque noeud feuille correspond à la variable cible. • Chaque branche correspond à une valeur pour la variable prédictive du noeud parent (ou un ensemble de valeurs). Vocabulaire des arbres
  38. Chemin, prédiction • Un chemin est un parcours du noeud racine jusqu’à un noeud feuille. • Chaque branche précise la valeur que prend la variable prédictive du noeud à l’origine de la branche. • Un chemin se termine par un noeud feuille qui précise la ou les valeurs prévues pour les enregistrements de la variable cible pour ce chemin particulier. • L’objectif est d’arriver autant que possible à des feuilles pures. Vocabulaire des arbres
  39. Feuille pure • Un noeud feuille est pur si les valeurs de la variable cible sont les mêmes pour tous les enregistrements de ce noeud, autrement dit si le chemin (donc le n-uplet de valeurs pour le nuplet de prédicteurs) détermine la valeur de la variable cible. Vocabulaire des arbres
  40. Arbre systématique et group by SQL • Fabriquer un arbre de décision systématique consiste à peu près à effectuer la commande SQL suivante : Select variables prédictives, variable cible, count(*) From table Group by variables prédictives, variable cible • Il y a toutefois une nuance à souligner : sur le chemin, on peut retrouver plusieurs fois la même variable. Vocabulaire des arbres
  41. Présentation des données Soit le dictionnaire des variables suivant concernant un fichier de clients d’une banque : Parmi ces 4 attributs, on définit trois variables prédictives : économie, capital et revenu ; et une variable cible : risque. Exemple
  42. Représentation SQL de l’arbre de décision systématique • L’arbre de décision systématique correspond à la commande SQL suivante : Arbre =Select Eco, Cap, Rev, Ris, count(*) From Clients Group by Eco, Cap, Rev, Ris Exemple
  43. • Le résultat de cette commande est le suivant : • Les effectifs donnés par le count(*) correspondent au nombre de clients qui ont les caractéristiques de la ligne. Exemple
  44. Analyse de la pureté des feuilles • Pour savoir avoir une feuille pure, il faut que le triplet (Eco, Cap, Rev) soit unique. • C’est le cas dans le tableau précédent. Exemple
  45. Représentation graphique de l’arbre de décision systématique • On représente maintenant la situation sous la forme d’un arbre systématique : Exemple
  46. Extraction des règles de décision • On peut constater que : Règle 1 : (Eco +, Cap +) => Ris ++ quel que soit Rev Règle 2 : (Eco +, Cap --) => Ris -- quel que soit Rev Règle 3 : (Eco -, Rev +) => Ris ++ quel que soit Cap Règle 4 : (Eco -, Rev --) => Ris -- quel que soit Cap Exemple
  47. • On peut donc remplacer l’arbre précédent par un arbre avec moins de branches et des branches plus courtes : Exemple
  48. Algorithmes de fabrication des arbres de décision Il existe plusieurs algorithmes pour fabriquer des arbres de décision. • Citons particulièrement : Le CART : méthode des arbres de segmentation et de régression (1984). Le CART fabrique des arbres binaires (toujours deux branches par noeuds non-feuilles). C’est un des algorithmes les plus performants et les plus répandus. ID3(1986): il a pour but de construire un arbre de décision de façon récursive en choisissant l’attribut qui maxime le gain d’information L’algorithme C4.5 (1993). Le C4.5 fabrique des arbres qui ne sont pas nécessairement binaires (0 à n branches par noeud). L’algorithme C5.0 (1998) est un perfectionnement du C4.5. Algorithmes
  49. Principe • CART (Classification And Regression Tree) construit un arbre de décision strictement binaire avec exactement deux branches pour chaque nœud de décision. • L’algorithme partitionne l’ensemble d’entraînement de façon récursive selon la méthode diviser pour mieux régner • Pour chaque nœud de décision, CART fait une recherche exhaustive sur tous les attributs et valeurs de séparation disponibles et sélectionne la séparation s qui maximise le critère suivant au nœud t Algorithme CART
  50. Technique • Mesure de la qualité d’une scission Avec: · j(st) : mesure de la qualité d’une scission au noeud t La meilleure scission parmi toutes les scissions possibles au noeud t est celle qui a la plus grande valeur pour j(st) . · PG : (nb enregistrements à tG) / nbTotal · PD : (nb enregistrements à tD) / nbTotal tG : noeud enfant gauche du noeud t tD : noeud enfant droit du noeud t nbTotal : nombre d’enregistrements dans tout l’ensemble d’apprentissage · nbClasses : nombre de catégories de la variable cible · P(itG) : (nb enregistrements pour la classe i à tG) / (nb enregistrements à t) · P(itD): (nb enregistrements pour la classe i à tD) / (nb enregistrements à t) Le nombre d’enregistrement sur un noeud correspond au nombre d’enregistrements restants après les décisions déjà prises. Algorithme CART
  51. Algorithme Début L’algorithme part de la racine de l’arbre. Boucle de parcours de l’arbre À chaque noeud de décision, l’algorithme fait une recherche exhaustive sur toutes les catégories de toutes les variables et mesure à chaque fois la valeur de la scission obtenu. L’algorithme choisit la scission optimale. Il n’y a qu’une scission par noeud puisque l’arbre est binaire. Fin de boucle Fin Algorithme CART
  52. l’arrêt d’algorithme • L’algorithme s’arrête lorsque l’un des cas d’arrêt suivant est rencontré : le nœud est pur, ie. tous les éléments du nœud appartiennent à la même classe ; tous les attributs ont été utilisés précédemment ; la profondeur de l’arbre à atteint la valeur maximale définie par l’utilisateur ; la taille du nœud est inférieure à la taille minimale définie par l’utilisateur ; la taille d’un des fils qui résulterait de la séparation optimale est inférieure à la taille minimale définie par l’utilisateur. Algorithme CART
  53. Principe • ID3 construit un arbre de décision de façon récursive en choisissant l’attribut qui maxime le gain d’information selon l’entropie de Shannon. Cet algorithme fonctionne exclusivement avec des attributs catégoriques et un nœud est créé pour chaque valeur des attributs sélectionnés. • ID3 est un algorithme basique facile à implémenter dont la première fonction est de remplacer les experts dans la construction d’un arbre de décision. • Cependant, les arbres de décisions ne sont ni robustes, ni compacts ce qui les rends inadaptés aux grosses bases de données. Algorithme ID3
  54. Condition d’arrêt de construction de l’arbre: basée sur un test de khi-deux pour un risque bien défini. • paramètres: Confidence level : Risque du test d'indépendance du KHI-2 sur un nœud à segmenter. Une p-value du test plus grande que ce niveau constitue une règle d'arrêt de l'expansion de l'arbre. Algorithme ID3
  55. Algorithme Algorithme ID3
  56. Principe • C4.5 est une amélioration d’ID3 qui permet de travailler à la fois avec des données discrètes et des données continues. Il permet également de travailler avec des valeurs d’attribut absentes. • Enfin, C4.5 élague l’arbre construit afin de supprimer les règles inutiles et de rendre l’arbre plus compact. • L’algorithme C5, qui est une solution commerciale, est une amélioration supplémentaire de C4.5. Algorithme C4.5
  57. Technique • La construction de l’arbre se base sur un nouveau critère qui est le ratio de gain: avec • le ratio de gain exprime la proportion d’information générée par le partitionnement selon l’attribut X, qui est utilisable pour le classement. Algorithme C4.5
  58. TP Arbre de décisions
  59. Références • Bardos M, Analyse Discrimininante : Application au risque et scoring financier, Dunod, 2001. • Bouroche J., Tenenhaus M., Quelques méthodes de segmentation, RAIRO, 42, 29-42, 1970. • Breiman L, Friedman J., Olshen R., Stone C., Classification and Regression Tree, California: Wadsworth International, 1984. • Breiman L., Bagging Predictors, Machine Learning, 24, 123-140, 1996. • Breslow L., Aha D., Simplifying Decision Trees: A survey, The Knowledge Engineering Review, 12, 1, 1-40, 1997. • Brodley C., Utgoff P., Mutlivariate Decision Trees, Machine Learning, 19, 1, 45-77, 1995. • Buntine W., About the IND tree package, Technical Report, NASA Ames Research Center, Moffet Field, California, September 1991. • Buntine W., Niblett T., A further comparison of splitting rules for decision tree induction,Machine Learning, 8, 75-85, 1992. • Cantu-Paz E., Kamath C., Inducing Oblique Decision Trees with Evolutionary Algrothms, IEEE Transactions on Evolutionary Computation, 7, 1, 54-69, 2003. • Catlett J., Megainduction : machine learning on very large databases, PhD Thesis, University of Sidney, 1991. • Celeux G., Lechevallier Y., Méthodes de segmentation, in Analyse Discriminante sur Variables Continues, Celeux G. éditeur, INRIA, 7, 127-147, 1990. • Chavent M., Guinot C., Lechevallier Y., Tenenhaus M., Méthodes divisives de classification et segmentation non supervisée : recherche d'une typologie de la peau humaine saine, Revue de Statistiques Appliquées, XLVII (4), 87—99, 1999.
  60. 16/05/2017 62
  61. Plan Classification Non supervisé Les systèmes de clustering Les clusterings Propriété Etape de clustering Méthode de clustering Clustering Hiérarchique  Principe  Algorithme Clustering basé sur la répartition  K-means  K-médoide Clustering basé sur la densité  Principe  Dbscan 16/05/2017 63
  62. la classification • Classer est une action élémentaire permettant d’apprendre le monde et construire son langage en regroupant ces caractéristiques sur la présence d’un critère partagé . • En informatique, une classification est un concept initiale qui a l’objectif de classer un ensemble d’objets ou individus afin de résoudre de nombreux problèmes tels que la sécurité des systèmes, la segmentation des images, la gestion de classement des documents…etc. • On distingue deux catégories majeures de la classification: • La classification non-supervisée • La classification supervisée 16/05/2017 64
  63. Classification non supervisée La classification non supervisé est la recherche d’une segmentation, c’est-à-dire d’une partition, ou répartition des individus en classes, ou catégories; Ceci est fait en optimisant un critère visant à regrouper les individus dans des classes, chacune le plus homogène possible et, entre elles, les plus distinctes possible c’est le principe de clustering 6516/05/2017
  64. Les Clusters • A la base, un cluster est un ensemble d’éléments. Cet ensemble est différent des autres. • Les méthodes d’analyse de clusters sont des algorithmes non-supervisés, ils permettent de générer et de trouver des classes naturelles. • Le prototype d’un cluster est son centre, aussi appelé centroid. Les systèmes de clustering 16/05/2017 66
  65. Propriétés d’un cluster Les deux propriétés importantes définissant un cluster pertinent sont : sa cohésion interne (que les objets appartenant à ce cluster soient les plus similaires possibles) son isolation externe (que les objets appartenant aux autres clusters soient les plus éloignés possible). Les systèmes de clustering 16/05/2017 67
  66. • Pour observer cela, plusieurs mesures sont associées a un cluster : – sa densité (la masse d’objets par unité volumique) – sa variance (le degré de dispersion des objets dans l’espace depuis le centre du cluster) – sa dimension (typiquement son radius ou son diamètre) – sa forme (hyper sphérique/allongée/concave/convexe,...) – sa séparation (par rapport aux autres clusters). Les systèmes de clustering 16/05/2017 68
  67. Etapes d’un système de clustering Les différentes étapes d’une tâche de clustering sont les suivantes : 1. Représentation des données :La représentation des données se réfère à la spécification du nombre de classes disponibles pour l’algorithme de clustering par: L’extraction des attributs correspond à l’utilisation d’une ou plusieurs transformations des attributs fournis en entrée pour produire de nouveaux attributs pertinents. La sélection des attributs est le processus permettant d’identifier le sous-ensemble des attributs le plus efficace à utiliser pour le clustering. Les systèmes de clustering 16/05/2017 69
  68. 2. définition d’une mesure de proximité appropriée au domaine des données: La proximité entre données est typiquement mesurée par une fonction de distance définie entre paires de données. 3. regroupement (clustering): Les clusterings résultant peuvent être une partition des données en groupes distincts. 4. abstraction des données (si nécessaire): L’abstraction des données est le processus d’extraction d’une représentation simple et compacte de l’ensemble des données (typiquement, la description de chaque cluster). 5. évaluation de la sortie (si nécessaire):L’´évaluation de la partition peut se faire de trois manières : évaluation externe : comparer la structure à une structure à priori évaluation interne : déterminer si la structure est intrinsèquement appropriée aux données évaluation relative : comparer différentes structures possibles Les systèmes de clustering 16/05/2017 70
  69. Les méthodes de clustering • On distingue trois grandes familles de clustering : Clustering Hiérarchique Clustering basé sur la répartition Clustering basé sur la densité 16/05/2017 71
  70. Principe Clustering Hiérarchique a pour but de former une hiérarchie de clusters, telle que plus on descend dans la hiérarchie, plus les clusters sont spécifiques à un certain nombre d’objets considérés comme similaires. Clustering hiérarchique 16/05/2017 72
  71. Exemple d’arbre de clusters Clustering hiérarchique 16/05/2017 73
  72. Dendrogramme C’est un graphe hiérarchique qui peut être coupé à un niveau de dissimilarité pour former une partition. La hiérarchie de clusters est représentée comme un arbre de clusters, appelé dendrogramme Les feuilles de l’arbre représentent les objets Les nœuds intermédiaires de l’arbre représentent les clusters Clustering hiérarchique 16/05/2017 74
  73. Avantages : Conceptuellement simple Propriétés théoriques sont bien connues Quand les clusters sont groupés, la décision est définitive => le nombre d’alternatives différentes à examiner est réduit Inconvénients : Groupement de clusters est définitif => décisions erronées sont impossibles à modifier ultérieurement Méthodes non extensibles pour des ensembles de données de grandes tailles Clustering hiérarchique 16/05/2017 75
  74. le clustering par partition le clustering par partition, dont le but est de former une partition de l’espace des objets, selon une certaine fonction critère, chaque partition représentant alors un cluster dans cette famille, plusieurs méthodes se distinguent fortement :  K-means  K-médoide 16/05/2017 76
  75. Principe L’algorithme de classification K-means consiste à classer les objets optimisés en k classes (clusters), ces classes sont présentées par les moyennes pondérées des objets inclus dans les classes, ces moyennes sont appelées ¨centroides¨. K-means 16/05/2017 77
  76. Algorithme L’état stable est l’état dont lorsque l’algorithme trouve après une telle classification les mêmes résultats que celle-ci du l’étape précédente K-means 16/05/2017 78
  77. Déroulement du l’algorithme Cet algorithme se déroule d’une façon itérative dans une suite d’étapes qu’on va les citer: 1. Le choix un nombre k qui va présenter le nombre des classes (dans notre cas le K égale à 2). 2. Choix de k objets et mettre chacun dans une classe différente. 3. Calculer les centroides des classes. 4. Calculer les distances entre les objets et les centroides et affecter chaque objet à la classe qui convient en basant sur le principe de la distance minimale. 5. Recalculer les centroides. 6. Répéter les étapes 4 et 5 jusqu’à ce qu’on trouve l’état stable. K-means 16/05/2017 79
  78. Inconvénients de k-means N’est pas applicable en présence d’attributs où la moyenne n’est pas définie On doit spécifier k (nombre de clusters) Incapable de traiter des données bruitées Les clusters sont construits par rapports à des objets inexistants (les milieux) Ne peut pas découvrir les groupes non-convexes Les outliers sont mal gérés. K-means 16/05/2017 80
  79. « K-medoid » PAM « K-representants » • un médoïde est le représentant le plus central d'une classe. • L'algorithme des k-medoids (k-médoïdes) est un algorithme de partitionnement plus robuste vis-à- vis les données aberrantes (outliers) que celui des k-means (k-moyennes). • Comme les k-moyennes, l'algorithme des k-médoïdes minimise l'erreur quadratique moyenne qui est la distance entre les points de la classe et le point central (ou médoïde). K-medoid 16/05/2017 81
  80. • Pour trouver k classes, l’approche PAM (partition around medoids) consiste à considérer un représentant pour chaque classe. Ce représentant est censé être le point le plus central de la classe • Au lieu de prendre la valeur moyenne des objets dans un cluster en tant que point de référence, nous pouvons ramasser des objets réels pour représenter les classes en utilisant un objet représentant par cluster. • Chaque objet resté est regroupé avec l'objet représentant à laquelle il est le plus similaire. Le procédé de séparation est alors effectuée en se basant sur ​​le principe de minimisation de la somme des différences entre chaque objet et son point de référence correspondant. K-medoid 16/05/2017 82
  81. Algorithme Algorithme des k-Medoides Choisir arbitrairement k medoides Répéter affecter chaque objet restant au medoide le plus proche Choisir aléatoirement un non-medoide Or Pour chaque medoide Oj Calculer le coût TC du remplacement de Oj par Or Si TC < 0 alors Remplacer Oj par Or Calculer les nouveaux clusters Finsi FinPour Jusqu’à ce ce qu’il n’y ait plus de changement K-medoid 16/05/2017 83
  82. Clustering basé sur la densité le clustering basé sur la densité, dont le but est d’identifier, dans l’espace, les zones de forte densité entourées par des zones de faible densité, qui formeront les clusters L’algorithme de densité le plus reconnu est le DBSCAN 16/05/2017 84
  83. Eps-Voisinage d’un point On définit l’ensemble des voisins d’un point p se trouvant dans un rayon Eps par : • Eps : Le rayon du voisinage • Dist( ) est une fonction de distance qui peut dépendre de la nature des données à classer. • D: Ensemble des données. Dbscan 16/05/2017 85
  84. Point noyau Un point p est dit point noyau si le nombre de points dans son voisinage de rayon Eps est supérieur ou égale à MinPts. |N(p)| ≥ MinPts • MinPts: Paramètre de densité : nombre minimal de voisins se trouvant dans un rayon Eps Dbscan 16/05/2017 86
  85. Algorithme 1. Sélectionner arbitrairement un point p 2. Former tous les points densité joignable à partir de p via Eps et MinPts 3. Si p est un point noyau, un cluster est formé 4. Si p est un point frontière, aucun point n’est joignable par densité à partir de p et DBSCAN visite le prochain point de la base de données 5. Continuer le processus jusqu’à ce que tous les points soient visités. Dbscan 16/05/2017 87
  86. • DBSCAN requiert deux paramètres Eps et MinPts, et l’expérience montre que les résultats obtenus sont très sensibles aux choix de ces paramètres. En plus il n’est pas bien adapté dans le cas où les clusters se présentent sur différentes densités. Eu égard à sa complexité quadratique il n’est pas adapté aux larges bases de données. Dbscan 16/05/2017 88
  87. Conclusion • Les méthodes de clustering peuvent être classées en : • Méthodes de partitionnement, • Méthodes hiérarchiques, • Méthodes à densité de voisinage • Plusieurs travaux de recherche sur le clustering en cours... • Plusieurs applications en perspective : Génomique, Environnement, ... 16/05/2017 89
  88. Références • A. S. Sodiya. Multi-Level and Secured Agent-based Intrusion Detection System. JournalOf Computing and InformationTechnology,14(3):217–223, 2006. • M.-L. Shyu and V. Sainani. A Multiagent-based Intrusion Detection System with the Support of Multi-Class Supervised Classification, chapter 8, pages 127–142. SpringerVerlagUS, Data Miningand Multi-agent Integrationedition, 2009. • Imen Brahmi1, Sadok Ben Yahia1, and Pascal Poncelet2 MAD-IDS: Novel Intrusion Detection System using Mobile Agents and Data Mining Approaches 1 Faculty of Sciences of Tunis, Tunisia. • Intrusion detection using autonomous agents. Eugene H. Spafford and Diego Zamboni Computer Networks, 34(4):547-570, October 2000. • A New Mobile Agent-Based Intrusion Detection System Using Distributed Sensors MohamadEid American University of Beirut, Department of Electrical and Computer Engineering, P.O.Box 11-0236 Beirut 1107 2020 Lebanon. • An Intelligent Immunity-based Model for Distributed Intrusion Detection ZhihaoPENG,Guanyu LI, Faculty of Information Science and Technology, Dalian Maritime University, Dalian 116024, China , Department of Computer Science, Dalian NeusoftInstitute of Information, Dalian 116626, China • détection d’intrusion Odile PAPINI ESIL Université de la méditerranée Odile.Papini@esil.univmrs.frhttp://odile.papini.perso.esil.univmed.fr/sources/SSI.html • Guillaume CALAS Spécialisation Sciences Cognitives et InformatiqueAvancée 14-16 rueVoltaire,94270 Le Kremlin-Bicêtre,France 16/05/2017 90
Advertisement