Rapport de stage fatma karem

  • 1,161 views
Uploaded on

rapport de stage fatma karem à l'ENSIETA Brest 31 mai -28 juin 2010

rapport de stage fatma karem à l'ENSIETA Brest 31 mai -28 juin 2010

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
1,161
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
44
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Combinaison de classification non supervisée et supervisée Thèse présentée par : Fatma Karem Encadreurs : Arnaud Martin Mounir Dhibi
  • 2. Rapport de Stage Fatma Karem 2010Plan du rapport 1. Objectifs de la thèse 2. Problématique du sujet 3. Combinaison de classification non- supervisée 4. Combinaison de classification supervisée 5. Combinaison de classification mixte 6. Réflexions Bibliographie -1-
  • 3. Rapport de Stage Fatma Karem 20101) Objectifs de la thèse : Faire une combinaison entre une méthode de classification non-supervisée avec celle supervisée en vue d’améliorer la qualité de la classification.2) Problématique du sujet : Avant d’aborder la problématique du sujet on commence par présenter brièvement la classification supervisée et non supervisée. a) Classification supervisée et non-supervisée :L’objectif de la classification c’est d’identifier les classes auxquellesappartiennent des objets à partir de traits descriptifs (attributs,caractéristiques). On distingue deux types de classifications supervisée etnon-supervisée appelée aussi "classification automatique" ou "clustering" ou"regroupement".- Si on est dans le dernier cas on est appelé à identifier les populations d’unensemble de données. Il faut pouvoir affecter une nouvelle observation àune classe. Le problème ici est difficile puisque les observations disponiblesne sont pas initialement identifiées comme appartenant à telle ou tellepopulation : il faudra déduire cette information de la répartition spatiale desobservations. Parmi les méthodes non-supervisées courantes :K-means, classification hiérarchique.- Si on est dans le contexte supervisé on dispose déjà des exemples déjàétiquetés. L’objectif ici est d’apprendre à l’aide d’un ensembledentraînement des règles qui permettent de prédire (ou « deviner »)certaines caractéristiques de nouvelles observations. On construit alors unmodèle en vue de classer les nouvelles observations. Parmi les méthodessupervisées on cite : discrimination linéaire (Ex: régression logistique ourecherche d’hyperplan séparateur), régression en général, méthode des plusproches voisins, arbres de décision, réseaux de neurones, machines à vecteurde support (SVM) et classificateur de Bayes.Quelque soit le type de classification on est confronté à des problèmes donton cite le manque de données pour faire l’apprentissage, données incertaineset imprécises ce qui empêche la construction d’un modèle correct dans le cas -2-
  • 4. Rapport de Stage Fatma Karem 2010supervisé. Pour la classification non-supervisée : on trouve la difficulté delimiter les frontières des classes qui ne sont pas toujours reconnaissables,l’espace à plusieurs dimensions (>2) et la dépendance des paramètresinitiaux.Une solution envisageable pour surmonter les problèmes des deux types estla fusion. b) Formalisme mathématique de la problématique :On présente les deux formalismes relatifs à chaque type de classification : Classification supervisée Classification non-supervisée P : population P : population D : ensemble de descripteurs D : ensemble de descripteurs {q1,……,qns } : ensemble de {c1,……,cns’ } : ensemble de classes clusters Xs : : fonction qui : : fonction qui associe une description à tout associe une description à tout élément de P élément de P Ys: : : : fonction qui associe une classe fonction qui associe un cluster à à chaque élément de P chaque élément de P C: {1,……,qns } : fonction Objectif recherché : trouver de classement Objectif recherché : apprendre C. Les principales difficultés qui découlent auxquelles est confronté la fusion sont la différence entre les nombres de classes et de clusters générées, problème de correspondance entre les deux et la résolution de conflit et d’ambiguïté engendrés. Les principales problématiques qui se présentent sont : - Chercher CC(c,q) : la correspondance entre un cluster c et une classe q. CC : {c1,……,cn } { q1,……,qn } -3-
  • 5. Rapport de Stage Fatma Karem 2010 - Optimiser ns et ns’ afin d’avoir à la fin : ( ns et ns’ sont respectivement le nombre de classes et clusters trouvés).On présentera dans ce qui suit quelques travaux émanant de chaque type decombinaison :3)Combinaison de classification non-supervisée :On présentera à ce niveau un travail marquant qui est celui de CédricWemmert, Pierre Gançarski et Germain Forestier. L’objectif était de faireune nouvelle méthode de classification basée sur la collaboration de plusieursclassifieurs non-supervisés. Celle-ci se déroule en trois étapes : tournageindépendant et parallèle des classifieurs, évaluation des résultats de chacun etraffinement, et unification des résultats. La deuxième étape est l’étape la plusdélicate puisque la correspondance entre les clusters de chaque couple declassifieurs et une résolution de conflits sont faite à ce stade là d’une façonitérative afin d’obtenir un nombre similaire de classes. A la fin une unificationest envisagée grâce à la méthode de vôte par exemple. Les actions à envisageren cas de conflit sont : scission, fusion ou suppression de clusters.La combinaison était employée pour faire une analyse d’images multi-sources. Le problème d’hétérogénéité des sources, résolutions et de tempsd’acquisition se pose. Une meilleure solution était de combiner pour allégerles obstacles rencontrés. [1]4)Combinaison de classification supervisée :Comme travail fait on présente le travail d’Arnaud Martin en vue de classifierles images sonar. Le problème de caractérisation des fonds marins est toujourslié aux méthodes d’analyses de texture qui sont en abondance ce qui présenteune difficulté au niveau du choix de la meilleure. Il est lié aussi au problèmede l’imperfection des appareils de mesure. La solution proposée était defusionner 4 classifieurs constitué chacun d’une méthode d’extraction deparamètres de texture et d’un perceptron multi-couches. La fusiond’informations haut niveau se fait au niveau des sorties numériques desperceptrons soit au niveau des sorties symboliques représentant les classesaffectées. Les paramètres extraits des classifieurs sont les matrices de co- -4-
  • 6. Rapport de Stage Fatma Karem 2010occurrence, les matrices de longueurs de plages, la transformée en ondeletteset les filtres de Gabor.Ces quatre jeux de paramètres sont ensuite considérés indépendamment àl’entrée de quatre perceptrons multicouche ayant chacun une couche de sortiede six neurones correspondant aux six classes de sédiments présents dans lesimages sonar.La fusion était faite grâce à la théorie des croyances. [2]5) Combinaison mixte de classification : On présentera deux travaux de cette catégorie. Le premier est celui d’Urszula Markowska-Kaczmar et Tomaz Switek. Le deuxième appartient à Maria Guijarro et Gonzalo Pajares. a) Travail n°1 :Une nouvelle methode de classification CUSC (Combined Unsupervised-Supervised Classification) était faite basée comme son nom l’indique sur unecombinaison entre méthode de classification non-supervisée et unesupervisée.Le fonctionnement de la méthode se déroule essentiellement selon deuxphases : construction de la structure du classifieur et recherche de l’ensembledes règles de classification pour les éléments de forme complexe.La structure du classifieur est une structure arborescente elle prend la formed’un arbre. Durant la première étape la structure se construit dynamiquementgrâce à une méthode non-supervisée qui est la classification neuronaleNC(Neural Clustering) et des données d’apprentissage. L’arbre est composéde nœuds et de feuilles. Les nœuds correspondent aux éléments de structurequi n’influent pas directement sur les décisions de classification. Les feuillesde l’arbre classifient les formes.On aura à la fin une structure emboîtée de clusters qui peuvent être de deuxtypes simple et complexe. Ceux qui sont simples sont ceux qui contiennentdes vecteurs appartenant à une seule classe et ceux complexes sont ceux quicontiennent des vecteurs appartenant à plusieurs clusters.La deuxième phase qui est la recherche des règles de classification. Le but icic’est de trouver un ensemble de règles conjonctives dans les attributs quifacilite la classification des éléments complexes. On tend à avoir des classesexclusives. Ceci se fait ici via un extracteur de règles appelé Bee Miner. Onobtient à la fin un ensemble de règles relatives à chaque cluster.[3] b) Travail n°2 : -5-
  • 7. Rapport de Stage Fatma Karem 2010Les auteurs présentent un nouvel classifieur basé sur la combinaison de 6classifieurs qui sont : FC (Fuzzy Clustering), l’approche bayésienneparamétrique (BP), l’approche bayésienne non- paramétrique (BN), cartesauto-organisatrices (Self-organizing feature maps (SO)) et deux versions desapproches de quantification d’apprentissage de vecteurs (learning vectorquantization approach (L1, L2)). La combinaison est faite grâce à uneapproche de décision floue multi-critère (MCDM : Fuzzy multicriteriadecision making approach). Le nouveau classifieur opère selon le schéma ci-dessous (fig1). Fig.1. L’architecture du classifieur hybride basé sur l’approche MCDM- Le fonctionnement du classifieur se fait selon 2 étapes : apprentissage etclassification. Apprentissage :Durant l’apprentissage, une partition optimale est construite à partir desdonnées d’apprentissage. Le partitionnement se fait grâce au clustering flou(FC). Le nombre de clusters est mis à jour automatiquement jusqu’à tombersur le nombre de clusters optimal . La validation de la partition se fait grâceà un critère: l’inertie intra-classe ou la somme des erreurs carrées comme ilsl’appellent dans l’article (SE : Sum-of-squared error criterion). Le critère enquestion a été normalisé afin d’obtenir une valeur comprise entre 0 et 1. -6-
  • 8. Rapport de Stage Fatma Karem 2010Une fois la partition optimale a été trouvée (le nombre optimal de classes etles sous-ensembles Si), on passe à l’estimation des paramètres des 5classifieurs restants : BP, BN, SO, L1 et L2. Chacun des classifieurs reçoit lescentres initiaux obtenus pour la partition validée. Puis il les met à jour tout entenant compte du nombre optimal de clusters trouvé. Tous les paramètresestimés de tous les classifieurs sont stockés.Ensuite on passe à l’estimation des compétences de chacun. On calcule la lasomme normalisée des erreurs carrées pour FC, BP, SO, L1et L2. Et oncalcule pour BN le critère de variance minimale relative (VC) ( Relatedminimum variance criteria). On obtient par conséquent à la fin lescompétences de chaque classifieur tout en tenant compte des sous-ensemblesSi avec leur nombre estimé de clusters . Classification :On procède maintenant à la classification des nouveaux vecteurs x. Il fautchercher à quelles classes ils appartiennent. La décision est prise grâce à lacombinaison des supports fournis par chacun des 6 classifieurs et leurscompétences à travers une méthodologie floue multi-critère (MCDM). Ongarde toujours le même nombre de classes .L’approche en question considère deux critères : bénéfice (C1) et coût (C2).C1 concerne les classifieurs suivants : FC, BP et BN. Il tient compte desdegrés flous d’appartenance de x aux clusters et les probabilités de x sachantles clusters existants en utilisant les fonctions de densité de probabilité. C2 estutilisé pour les 3 autres : SO, L1 et L2. Il utilise la distance euclidienne de x àchacun des centres. Une fois calculés ces deux critères pour chacun ils serontpondérés par des poids qui tiennent compte des performances des classifieurscalculés dans l’étape d’apprentissage. On procède après à une construction detable de décision de performance normalisée qui sélectionne la meilleurealternative pour le nouveau vecteur.[4]6) Réflexions sur la fusion entre classification supervisée et non- supervisée:On reprend le formalisme mathématique fait précédemment : Classification supervisée Classification non-supervisée P : population P : population D : ensemble de descripteurs D : ensemble de descripteurs { q1,……,qns } : ensemble de {c1,……,cns’ } : ensemble de classes clusters -7-
  • 9. Rapport de Stage Fatma Karem 2010 Xs : : fonction qui : : fonction qui associe une description à tout associe une description à tout élément de P élément de P Ys: q1,……,qns} : : c1,……,cns’} : fonction qui associe une classe fonction qui associe un cluster à chaque élément de P à chaque élément de P C: {q1,……,qns} : = {c1, c2,……,cns’ } : cadre fonction de classement de discernement du non- = {q1, q2,……,qns } : cadre supervisé de discernement du supervisé c2 ,……………,c1 q2 ,……………,q1 ∪c2∪c3∪……cns′ , : ∪q2∪q3∪……qns , }: ensemble de toutes les ensemble de toutes les disjonctions possibles des disjonctions possibles des clusters ci classes qi : fonction de masse pour la : fonction de masse pour classification supervisée qui la classification non- vérifie en général la supervisée qui vérifie en contrainte : général la contrainte :- On propose de chercher la correspondance entre les clusters et les classes en se basant sur une mesure de similarité entre les deux. Soit ql la classe qui correspond à un cluster ck , celle-ci est obtenue par la formule : CC(ck , qs) = ql avec S(ck , ql ) = max({ S(ck , qs ), qs { q1,……,qn } }) (1) Avec S la mesure de similarité entre un cluster et une classe. Elle s’obtient grâce au recouvrement entre les deux. Premièrement il faut calculer l’intersection entre chaque couple : cluster et classe (ck , qs ) des deux résultats ( non-supervisé et supervisé) et l’écrire dans une matrice de confusion qu’on note . -8-
  • 10. Rapport de Stage Fatma Karem 2010 Où et le nombre de clusters et le nombre de classes issues des deux types de classifications. Après, la similarité S(ck , qs) entre le cluster ck et la classe qs est évaluée en observant la relation entre la taille de leur intersection et la taille du cluster, et en tenant compte de la distribution des données dans la classe : S(ck , qs) =- Une fois on a obtenu la correspondance entre les clusters et les classes. On procède à l’étiquetage des éléments de chaque cluster sur la base de l’étape précédente et son intersection avec sa classe correspondante :  x si x ck et si x B avec B = ql = CC(ck , qs) alors x ql .  x si x ck et si x B alors x ql . L’ambiguïté se présente pour le deuxième cas. On cherche alors les classes d’appartenance des points restants. Une fois la recherche terminée on calcule les fonctions de masse correspondantes de chaque cluster. Pour les clusters présentant plusieurs étiquettes de classe on peut attribuer à chaque sous-ensemble de la même étiquette une fonction de masse égale au rapport entre sa cardinalité et la cardinalité totale du cluster l’incluant en prenant comme valeur de coefficient d’affaiblissement le maximum entre les valeurs de masse trouvées précédemment. Le déroulement global du processus se présente comme suit : 1- Lancement d’une méthode de classification non-supervisée. 2- Lancement d’une méthode de classification supervisée. 3- Recherche de la correspondance entre clusters et classes. 4- Calcul des fonctions de masses pour chaque ensemble et . 5- Faire la combinaison -9-
  • 11. Rapport de Stage Fatma Karem 2010 6- DécisionBibliographie[1] : Germain Forestier, Cédric Wemmert et Pierre Gançarski, “ MultisourceImages Analysis Using Collaborative Clustering,” 2008.[2] : Arnaud Martin, “Fusion de classifieurs pour la classification d’imagessonar,” 2005.[3] : Urszula Markowska-Kaczmar et Tomasz Switek, “CombinedUnsupervised-Supervised Classification Method,” dans Knowledge-Based andIntelligent Information and Engineering Systems, 2009, 861-868,http://dx.doi.org/10.1007/978-3-642-04592-9_107.[4] : Maria Guijarro et Gonzalo Pajares, “On combining classifiers through afuzzy multicriteria decision making approach: Applied to natural texturedimages,” 2009, Expert Systems with Applications 36 (2009) 7262–7269 edition. - 10 -