These lefort

924 views

Published on

thèse lefort

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
924
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

These lefort

  1. 1. N° d’ordre : 2010telb0164 Sous le sceau de l’Université européenne de Bretagne Télécom Bretagne En habilitation conjointe avec l’Université de Rennes 1 Co-tutelle avec l’Ifremer Ecole Doctorale – MATISSE Apprentissage et classification faiblement supervisée : Application en acoustique halieutique Thèse de Doctorat Mention : Traitement du signal Présentée par Riwal Lefort Département : Signal et Communication Laboratoire : Labsticc Pôle : CID Directeur de thèse : Jean-Marc Boucher Soutenue le 29 novembre 2010Jury :M. Frédéric Jurie, professeur, université de Caen (Rapporteur)Mme Pascale Kuntz, professeur, université de Nantes (Rapporteur)M. Jean-Marc Boucher, professeur, Telecom Bretagne (Directeur de thèse)M. Laurent Miclet, professeur, université de Rennes1 (Examinateur)M. Ronan Fablet, enseignant-chercheur, Telecom Bretagne (Examinateur)M. Carla Scalabrin, chercheur, Ifemer (Examinateur)M. Laurent Berger, Ifremer (Invité)
  2. 2. Table des matièresTable des matières v1 Introduction générale viiI Classication automatique et apprentissage faiblement su-pervisé xi2 Les modèles de classication usuels : état de lart xiii PFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xiii PFP gl—ssi(™—tion supervisée F F F F F F F F F F F F F F F F F F F F F F F F F F xiv PFPFI wodèle génér—tif F F F F F F F F F F F F F F F F F F F F F F F F F F xv PFPFP wodèle dis™rimin—nt F F F F F F F F F F F F F F F F F F F F F F F F xvi PFPFQ wodèle hy˜ride X —r˜res de ™l—ssi(™—tion F F F F F F F F F F F F F xix PFQ gl—ssi(™—tion non supervisée F F F F F F F F F F F F F F F F F F F F F F F F xxi PFR gl—ssi(™—tion f—i˜lement supervisée F F F F F F F F F F F F F F F F F F F F xxii PFS gl—ssi(™—tion semiEsupervisée F F F F F F F F F F F F F F F F F F F F F F F xxiii PFT gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxvi3 Classication faiblement supervisée : modèles proposés xxvii QFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxvii QFIFI qénér—lités F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxvii QFIFP xot—tions F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxviii QFP wodèle génér—tif F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxviii QFPFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxviii QFPFP gl—ssi(™—tion supervisée F F F F F F F F F F F F F F F F F F F F F F xxviii QFPFQ gl—ssi(™—tion f—i˜lement supervisée F F F F F F F F F F F F F F F F xxx QFQ wodèle dis™rimin—nt F F F F F F F F F F F F F F F F F F F F F F F F F F F F xxxiii
  3. 3. iv TABLE DES MATIÈRES QFQFI gl—ssi(™—tion supervisée F F F F F F F F F F F F F F F F F F F F F F xxxiv QFQFP gl—ssi(™—tion f—i˜lement supervisée F F F F F F F F F F F F F F F F xli QFR er˜res de ™l—ssi(™—tion F F F F F F F F F F F F F F F F F F F F F F F F F F F xlii QFRFI gl—ssi(™—tion supervisée F F F F F F F F F F F F F F F F F F F F F F xlii QFRFP gl—ssi(™—tion f—i˜lement supervisée F F F F F F F F F F F F F F F F xliv QFS gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xlv4 Association de classieurs xlvii RFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xlvii RFP insem˜le de ™l—ssi(eurs F F F F F F F F F F F F F F F F F F F F F F F F F F xlvii RFPFI it—t de l9—rt F F F F F F F F F F F F F F F F F F F F F F F F F F F F F xlviii RFPFP ‚—ndom forest X —pprentiss—ge supervisé F F F F F F F F F F F F F xlix RFPFQ ‚—ndom forest X —pprentiss—ge f—i˜lement supervisé F F F F F F F l RFQ gl—ssi(™—tion itér—tive F F F F F F F F F F F F F F F F F F F F F F F F F F F li RFQFI epprentiss—ge itér—tif simple F F F F F F F F F F F F F F F F F F F F li RFQFP epprentiss—ge itér—tif —mélioré F F F F F F F F F F F F F F F F F F F lii RFR gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F liii5 Evaluations et performances des modèles lv SFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lv SFP €ro™édure de simul—tion F F F F F F F F F F F F F F F F F F F F F F F F F F lv SFQ teux de données F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lvi SFR €erform—n™es F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lvii SFRFI ghoix des p—r—mètres F F F F F F F F F F F F F F F F F F F F F F F F lvii SFRFP €erform—n™es en fon™tion de l— ™omplexité des données d9—pprenE tiss—ge F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lix SFRFQ €erform—n™es en fon™tion du nom˜re de ™l—sses d—ns les mél—nges lx SFS gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxiiiII Classication automatique en acoustique halieutique lxvii6 Sondeurs acoustiques et logiciels de traitement lxix TFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxix TFP ƒondeur monof—is™e—u F F F F F F F F F F F F F F F F F F F F F F F F F F F lxx TFQ ƒondeur multif—is™e—ux F F F F F F F F F F F F F F F F F F F F F F F F F F F lxxii TFR gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxxiii
  4. 4. TABLE DES MATIÈRES v7 Classication et reconnaissance des structures lxxvii UFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxxvii UFP it—t de l9—rt F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxxviii UFQ gl—ssi(™—tion et re™onn—iss—n™e des ˜—n™s de poissons F F F F F F F F F F lxxix UFQFI hes™ripteurs des ˜—n™s Ph F F F F F F F F F F F F F F F F F F F F F lxxix UFQFP hes™ripteurs des ˜—n™s Qh F F F F F F F F F F F F F F F F F F F F F lxxx UFQFQ €erform—n™es de ™l—ssi(™—tion X f—n™s Ph F F F F F F F F F F F F F lxxxiii UFR gl—ssi(™—tion et re™onn—iss—n™e des ensem˜les de ˜—n™s de poissons F F lxxxiv UFRFI €ré—m˜ule F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F lxxxiv UFRFP hes™ripteur glo˜—l proposé F F F F F F F F F F F F F F F F F F F F F lxxxv UFRFQ €erform—n™es F F F F F F F F F F F F F F F F F F F F F F F F F F F F x™ UFRFR ƒynthèse F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ™i UFS gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ™ii8 Application à lévaluation des biomasses des espèces halieutiques dans le Golfe de Gascogne cv VFI sntrodu™tion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ™v VFP wéthode de l9expert pour l9év—lu—tion de ˜iom—sses F F F F F F F F F F F ™vi VFQ wéthodes —lgorithmiques d9év—lu—tion de ˜iom—sses F F F F F F F F F F F ™ix VFR gl—ssi(™—tion de ˜—n™s de poissons pour l9év—lu—tion de ˜iom—sses F F F ™x VFRFI gomment év—luer l— ˜iomm—sse F F F F F F F F F F F F F F F F F F ™x VFRFP …n ™ritère d9optimis—tion des p—r—mètres des ™l—ssi(eurs F F F F ™xii VFS €erform—n™es F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ™xiii VFSFI ƒimul—tion d9un s™én—rio F F F F F F F F F F F F F F F F F F F F F F ™xiii VFSFP g—mp—gne €ivqeƒHH F F F F F F F F F F F F F F F F F F F F F F F ™xiv VFSFQ his™ussion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ™xxi VFT gon™lusion F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F F ™xxvi9 Conclusion Générale cxxviiIII Annexes et Bibliographie cxxxiii
  5. 5. CHAPITRE 1 Introduction générale gette thèse tr—iteD d9une p—rtD de l— ™l—ssi(™—tion —utom—tique d—ns un ™—dre d9—pEprentiss—ge f—i˜lement superviséD et d9—utre p—rtD de l9—™oustique h—lieutiqueF ve m—Enus™rit est s™indé en deux p—rties prin™ip—les X les méthodes d9—pprentiss—ge d9un pointde vue théorique @p—rtie sA et l9—ppli™—tion de ™es méthodes d—ns le ™ontexte de l9—™ousEtique h—lieutique @p—rtie ssAF h—ns ™e premier ™h—pitre introdu™tifD nous ™ommençonsp—r dé(nir l— pro˜lém—tique de l9intelligen™e —rti(™ielle d—ns son ensem˜leD puisD ™elle del9—pprentiss—ge f—i˜lement superviséD ensuiteD nous introduisons le dom—ine de l9—™ousEtique h—lieutiqueD et en(nD le pl—n de ™ette thèse est présentée su™™in™tementF h—ns l9ensem˜le des dom—ines de re™her™heD ™elui de l9intelligen™e —rti(™ielle estex™essivement proli(queF v9intelligen™e —rti(™ielle ™onsiste à —n—lyser et tr—iter des siEgn—ux numériquesD tels que des photogr—phiesD des vidéosD des sonsD des r—diogr—phiesDdes é™hogr—phiesD des im—ges r—d—r @s—tellitesD —éron—utiqueD —utomo˜ileD et™AD des p—geswe˜D des do™uments m—nus™rits @—n—lyse de l— sém—ntiqueAD ou en™oreD toute entité quise dé™rit de m—nière numériqueFves méthodes proposées s9inspirent souvent de l9hommeD l9o˜je™tif ét—nt de développerdes outils d9—n—lyse et de tr—itement dont les perform—n™es sont —u moins équiv—lentesà ™elles du ™erve—u hum—inF v— question fond—ment—le est résumée d—ns l9exemple suiEv—nt X si l9homme —rrive à diéren™ier un o˜jet d9un —utre d—ns une im—geD pourquoi unordin—teur n9y —rriver—itEil p—s c get —™h—rnement s™ienti(que est prin™ip—lement moEtivé p—r le très fort potentiel des outils inform—tiquesF einsiD l9import—n™e de p—rvenirà ™e ˜ut et qui justi(e que l9intelligen™e —rti(™ielle ™on™entre une m—jorité de reg—rdset d9intérêtsD réside d—ns l9énorme ™—p—™ité de ™—l™uls et de mémoires des ordin—teursFve dom—ine de l9intelligen™e —rti(™ielle peut être s™indé en une multitude de ™—tégoriesF€—rmi les dis™iplines ™ommunesD on peut ™iter le tr—™king @suivi des stru™tures déforEm—˜les ou indéform—˜les d—ns une vidéoAD l— déte™tion de texture d—ns des im—gesD l—™l—ssi(™—tion @—ttri˜ution d9une ™l—sse à une im—geD à une portion d9im—geD à un pixelDet à toute entité qui peut être ™l—ssée d—ns une ™—tégorieAD l— re™onn—iss—n™e de formes@déte™tion du ™ontour d9un o˜jet d—ns une im—geAD l— rédu™tion de l— dimension desdonnées @p—r exemple en ™ompression de donnéesAD l— fusion de données @l— réponse àune question posée se ˜—se sur une o˜serv—tion multiE™—pteur et ™ontextuelleAD et™Fin intelligen™e —rti(™ielleD les ™her™heurs proposent des modélis—tions m—thém—tiquesplus ou moins ™omplexes qui donnent l— solution à une question poséeF ges modèlespeuvent être représentés p—r une ˜oite noire dont l9entrée est le sign—l issu du ™—pteuret dont l— sortie fournit une réponse à l— question poséeF v— plup—rt des modèles et
  6. 6. viii CHAPITRE 1. INTRODUCTION GÉNÉRALEdes —ppro™hes proposés sont tr—nsverses X ils sont utilisés d—ns plusieurs dis™iplines enmême tempsF €—r exempleD le même modèle m—thém—tique de suivi d9o˜jet peut êtreutilisé pour suivre une ™i˜le d—ns une im—ge r—d—r ou pour suivre un o˜jet d—ns unevidéoF he l— même m—nièreD un modèle m—thém—tique peut servir à l— foisD de ™l—ssiE(eur d9o˜jets d—ns des im—gesD de ™l—ssi(eur de types de sonsD de ™l—ssi(eur de p—geswe˜D de ™l—ssi(eur de do™uments m—nus™ritsD et™F gette rem—rque justi(e le pl—n géEnér—l de l— thèse X plutôt que de proposer des méthodes de tr—itement du sign—l d—nsun ™—dre —ppli™—tifD nous nous pl—çons d9—˜ord d—ns le ™—s génér—l qui —utorise toutetr—nsvers—litéD puis nous étudions une —ppli™—tion possi˜le des méthodes proposéesF h—ns ™ette thèseD d—ns l— p—rtie s dédiée à l9—ppro™he théorique et génér—leD nousnous pl—çons d—ns le ™—s de l— ™l—ssi(™—tion d9o˜jetsD ™euxE™i ét—nt des entités dé(niesp—r un ensem˜le de des™ripteursD p—r exemple les ™—r—™téristiques des formes des o˜Ejets pré—l—˜lement déte™tés d—ns une im—geF v— question théorique prin™ip—le que nousnous posons est X gomment r—nger ™es o˜jets d—ns des ™l—sses c yu ™omment —ttri˜uerun l—˜el à ™h—que o˜jet c xous dé(nissons un l—˜el ™omme ét—nt l— ™l—sse —sso™iée àun o˜jetF sm—ginonsEnous une ˜oite noire qui prend un o˜jet s—ns l—˜el en entrée etdont l— sortie renseigne sur les ™l—sses pro˜—˜lesF gette ˜oite noire ™ontient un modèlede ™l—ssi(™—tionF geuxE™i sont très nom˜reux et les —ppro™hes sont très v—ri—˜lesF gesmodèles de ™l—ssi(™—tions dépendent de p—r—mètres @propres à ™h—que méthodeA quisont déterminés lors d9une ph—se d9—pprentiss—geF v9—pprentiss—ge des modèles de ™l—sEsi(™—tion est ee™tué à p—rtir d9un ensem˜le d9o˜jets @ou de donnéesA d9—pprentiss—gequi sont plus ou moins l—˜élisésF in eetD il existe plusieurs types d9—pprentiss—ge quidépendent de l— ™onn—iss—n™e plus ou moins ex—™te des l—˜els des données d9—pprentisEs—geF ƒi tous les l—˜els sont ™onnusD on p—rle d9—pprentiss—ge superviséF in —pprentiss—gesemiEsuperviséD seule une p—rtie des données est l—˜éliséeD l9—utre ne l9est p—sF in —pEprentiss—ge non superviséD les données ne sont p—s l—˜éliséesD l9o˜je™tif est de regrouperles o˜jets en p—quets de données simil—iresF in(nD l9—pprentiss—ge f—i˜lement superviségénér—lise le ™—s supervisé et semiEsupervisé X les données d9—pprentiss—ge sont —sso™iéesà un ve™teur dont ™h—que ™ompos—nte donne l— pro˜—˜ilité — priori d9—ttri˜ution del9o˜jet ™onsidéré à ™h—que ™l—sse respe™tivementF v9origin—lité de ™ette p—rtie se situed—ns ™e form—lisme d9—pprentiss—ge f—i˜lement supervisé qui ™onsidère un modèle de™l—ssi(™—tion dont l9—pprentiss—ge —grège d9—utres formes d9—pprentiss—geFgomme nous l9—vons présenté d—ns le p—r—gr—phe introdu™tifD un gr—nd nom˜re demodélis—tions m—thém—tiques est envis—gé pour ™h—™un des types d9—pprentiss—geF gesgr—ndes f—milles de modèles sont tr—nsverses X le plus souventD moyenn—nt quelques reEformul—tions méthodologiques ou m—thém—tiquesD elles s9—ppliquent pour tous les typesd9—pprentiss—geF h—ns ™ette thèseD nous reprenons trois gr—ndes f—milles de modèles X lesmodèles génér—tifsD les modèles dis™rimin—ntsD et des modèles hy˜rides de ™l—ssi(™—tionFxotre o˜je™tif est de proposerD pour ™h—™une des —ppro™hes m—thém—tiques envis—géesDun modèle de ™l—ssi(™—tion dont les p—r—mètres sont év—lués d—ns le ™—dre de l9—pprenEtiss—ge f—i˜lement superviséD et don™D qui génér—lise toutes les formes d9—pprentiss—geFh—ns le dom—ine de l— ™l—ssi(™—tion d9o˜jetsD d9—utres méthodes ont vu le jourF gellesE™i exploitent les modèles m—thém—tiques fond—ment—ux pré™édemment dé™rits en les™om˜in—nt de plusieurs f—çonsF einsiD ils peuvent être ™on™—ténés en ™—s™—de de ™l—ssiE(eursD les résult—ts de ™l—ssi(™—tion issus de plusieurs ™l—ssi(eurs peuvent être fusionnés
  7. 7. ixpour prodiguer une seule proposition de ™l—ssi(™—tionD l9estim—tion des p—r—mètres d9unmodèle de ™l—ssi(™—tion peut s9ee™tuer itér—tivementD et™F …ne multitude d9—ppro™hesest envis—ge—˜le pour ee™tuer une ™om˜in—isonF h—ns ™ette thèse nous —˜ordons lesméthodes de ™om˜in—isons les plus ™onnues et nous proposons des solutions pour l9—pEprentiss—ge f—i˜lement superviséF ves perform—n™es de ™l—ssi(™—tion des modèles etdes méthodes de ™om˜in—ison proposés d—ns l— p—rtie s sont év—luées sur des jeux dedonnées d9—pprentiss—ge synthétiques dont nous m—itrisons les pro˜—˜ilités — priori de™l—ssi(™—tionF ge ™ontrôle tot—l des données d9—pprentiss—ge permet de ™omp—rer etd9—n—lyser les diérentes —ppro™hes rel—tivement à des ™onditions p—rti™ulièresF h—ns l— p—rtie ss de ™ette thèseD nous étudions l9—pprentiss—ge st—tistique d—nsle ™—dre de l9—™oustique h—lieutiqueF v9—™oustique h—lieutique est l—rgement étudiéep—r l9snstitut pr—nç—is de ‚e™her™he pour l9ixploit—tion de l— wi‚ @sp‚iwi‚A qui— (n—n™é en p—rtie ™ette thèseD ™e dom—ine s™ienti(que f—it p—rtie de l— f—mille del9—™oustique sousEm—rineF €—rmi l9ensem˜le des énergies possi˜les @éle™triqueD éle™troEm—gnétiqueD lumineuseD et™AD seule l9énergie —™oustique possède des ™—r—™téristiques deprop—g—tion —déqu—tes d—ns le milieu sousEm—rinF einsiD d—ns l9environnement —qu—EtiqueD l9—™oustique est utilisée en télé™ommuni™—tion ™omme support de tr—nsmissionDen géos™ien™e pour l9étude des fonds m—rins et de leur sousEsols @les —ppli™—tions ét—nt l—sédimentologieD l— ˜—thymétrie et l— prospe™tion pétrolièreAD en o™é—nogr—phie physiquepour l9étude et l— ™—r—™téris—tion des ™our—nts m—rinsD et en ˜iologie —ve™ l9étude du™omportement des espè™es sousEm—rinesF ge dernier point est tr—ité d—ns ™ette thèse Xl9o˜serv—tion —™oustique des espè™es h—lieutiques et l9—n—lyse de ™es o˜serv—tionsF…n sondeur —™oustiqueD pl—™é sous l— ™oque d9un n—vireD est le seul outil qui permetd9o˜tenir une im—ge de résolution ™orre™teD d—ns l—quelle (gure le fond de l— mer ettous les o˜jets présents d—ns l— ™olonne d9e—uF heux f—™teurs prin™ip—ux motivent l9utiElis—tion des sondeurs —™oustiques en ˜iologie h—lieutiqueF €remièrementD l9exploit—tiondes ressour™es h—lieutiques doit être en™—drée —(n d9éviter tout pro˜lème de surexploiEt—tion et don™ de disp—rition des espè™esF h—ns ™e ™ontexteD les sondeurs —™oustiquespermettent de dimensionner les sto™ks des espè™es ™on™ernées —(n de (xer des quot—sde pê™heF xotons qu9il existe d9—utres moyens d9év—lu—tion des sto™ksD ™omme l9é™h—nEtillonn—ge en ™riéesF heuxièmementD d9un point de vue ˜iologiqueD pour ™omprendre lefon™tionnement de l9é™osystème sous m—rin d—ns son ensem˜leD et —insi l9étude de l—vie sur terreD il est né™ess—ire d9étudier le ™omportement des espè™es h—lieutiques et dupl—n™tonF €—r exempleD on peut se dem—nder ™omment vont se ™omporter les s—rdinesrel—tivement —u ré™h—uement ™lim—tique X vontEelles migrer c veur nom˜re v—EtEil évoEluer c „outes ™es questions né™essitent une o˜serv—tion —™oustique de l— ™olonne d9e—uDseul moyen de déterminer l— ™omposition des o™é—nsFges o˜serv—tions —™oustiques sont ee™tuées lors de ™—mp—gnes o™é—nogr—phiques dontle proto™ole in™lut un point ™ru™i—l et ™ritique X l9identi(™—tion des stru™tures de l9im—ge—™oustiqueF e™tuellementD ™ette ét—pe d9identi(™—tion est ee™tuée p—r un expert à p—rEtir des im—ges —™quises p—r un sondeur —™oustique monof—is™e—uD ™epend—ntD il existeune forte dem—nde d9—utom—tis—tion du pro™essus qui se justi(e p—r le f—it que l9expertest ™onfronté à une m—sse d9inform—tions de plus en plus import—nteF €remièrementD ilexiste plusieurs types de sondeurs monof—is™e—u ™—r—™térisés p—r des fréquen™es d9imEpulsions —™oustiques diérentesD ™e qui modi(e les morphologies des stru™tures d—ns les
  8. 8. x CHAPITRE 1. INTRODUCTION GÉNÉRALEim—ges et leurs —ttri˜uts énergétiquesF heuxièmementD l9—rrivée du sondeur multif—isE™e—ux permet l9—™quisition d9une im—ge en trois dimensions de l— ™olonne d9e—u qui est˜e—u™oup plus pré™ise et plus ri™he en inform—tionsD m—is qui rend l9—n—lyse des donnéesplus ™omplexeF einsi l9expert est supposé ™onsidérer les inform—tions ™umulées de tousles types de sondeurs à l— foisF wême si le ™erve—u hum—in est puiss—nt et très perforEm—ntD il possède ses limitesD et l9—n—lyse ™onjuguée de l9ensem˜le de ™es inform—tionsest ™omplexeF gette —ppli™—tion illustre le tr—nsfert hommeGm—™hine qui — été dé™ritd—ns le p—r—gr—phe pré™édent et justi(e l9—utom—tis—tion du pro™essus d9identi(™—tiondes stru™tures d—ns les im—ges —™oustiquesFh—ns ™e ™ontexte de ™l—ssi(™—tion d9im—ges etGou de stru™tures d—ns des im—ges —™ousEtiquesD nous proposerons des méthodes d9—pprentiss—ge de modèles de ™l—ssi(™—tionpour l9—™oustique h—lieutiqueD nous proposerons —ussi des des™ripteurs d9—grég—tion depoissons d—ns les é™hogr—mmesD et une —ppli™—tion à l9év—lu—tion des sto™ks de poissonsdu qolfe de q—s™ogne ser— présentéeF ge mémoire de thèse est org—nisé en deux gr—ndes p—rties @les p—rties s et ss quisont ellesEmêmes s™indées en plusieurs ™h—pitresAF €remièrementD l— p—rtie s tr—ite dupro˜lème de l— ™l—ssi(™—tion —utom—tique d9o˜jets d—ns le ™—dre de l9—pprentiss—ge f—iE˜lement superviséF eprès un ét—t de l9—rt génér—l sur les méthodes de ™l—ssi(™—tion@™h—pitre PAD trois modèles de ™l—ssi(™—tion dont les philosophies sont opposées serontétudiés d—ns le ™h—pitre QF ve ™h—pitre suiv—nt @™h—pitre RA ™on™entre des méthodes de™om˜in—isons de ™l—ssi(eurs élément—ires et de fusion de ™l—ssi(eursF in(nD des expéErien™es sont menées d—ns le ™h—pitre S —(n d9—n—lyser et de ™omp—rer les perform—n™esde ™l—ssi(™—tion des modèles et des méthodes proposéesF „outes ™es expérien™es sontee™tuées à p—rtir de jeux de données synthétiques qui nous permettent de m—îtriserles ™omplexités des ensem˜les d9—pprentiss—geF heuxièmementD l— p—rtie ss tr—ite dedonnées qui proviennent essentiellement de l9—™oustique h—lieutiqueF h—ns le ™h—pitreTD les ™—r—™téristiques te™hniques des sondeurs —™oustiques sont présentées ˜rièvementD—insi que l— te™hnique d9o˜tention des im—ges de l— ™olonne d9e—uF ves des™ripteurs des—grég—tions sont étudiés d—ns le ™h—pitre UF heux types d9—n—lyses sont envis—gés X une—n—lyse lo™—le qui ™onsiste en l9emploi des des™ripteurs des ˜—n™s de poissons et une—n—lyse glo˜—le pour l—quelle nous ™—l™ulons des des™ripteurs glo˜—ux pour une im—gede ˜—n™s de poissonsF in(nD une —ppli™—tion à l9év—lu—tion des sto™ks de poissons d—nsle qolfe de q—s™ogne est ee™tuée @™h—pitre VAF xous en pro(tons pour —ppliquer lesméthodes d9—pprentiss—ge f—i˜lement supervisé proposées d—ns l— p—rtie s du mémoireet pour utiliser les des™ripteurs de ˜—n™s de poissons présentés d—ns l— p—rtie ssF …ne™on™lusion génér—le @™h—pitre WA et une p—rtie qui ™ontient les —nnexes et l— ˜i˜liogr—phie@p—rtie sssA ™los ™e mémoire de thèseF
  9. 9. Première partie Classication automatique etapprentissage faiblement supervisé
  10. 10. CHAPITRE 2 Les modèles de classication usuels : état de lart2.1 Introduction ve ™h—pitre I est ™ons—™ré à l9ét—t de l9—rt des modèles de ™l—ssi(™—tion usuelsFves méthodes exist—ntes sont présentées su™™in™tementD l9o˜je™tif n9ét—nt p—s de toutexpli™iter en dét—il m—is de f—ire ét—t des ™onn—iss—n™es exist—ntes en ™l—ssi(™—tiond9o˜jets —(n de situer les —pports méthodologiquesF v— pro˜lém—tique porte sur l9—pprentiss—ge st—tistique et l— ™l—ssi(™—tion —utom—Etique pro˜—˜iliste d9un ensem˜le d9o˜jetsF …n modèle de ™l—ssi(™—tion est un outilm—thém—tique qui permet d9—e™ter une ™l—sse à une entité en fon™tion de ses proEpriétés intrinsèquesF v9—ppro™he étudiée d—ns ™e mémoire est purement pro˜—˜iliste X™h—que o˜jet —pp—rtient à une ™l—sse et nous m—nipulons des ve™teurs qui tr—duisentles pro˜—˜ilités d9—e™t—tion à ™h—que ™l—sseF xotons queD ™omme notre —ppro™he estpro˜—˜ilisteD etD ™omme nos ™onn—iss—n™es initi—les sur les données d9—pprentiss—ge sontdes pro˜—˜ilités de ™l—ssi(™—tion — prioriD nous n9étudierons p—s des méthodes plus géEnér—les ™omme l— théorie de hempsterEƒh—fer ‘I“ qui ™om˜ine des ™onn—iss—n™es — prioridistin™tes sur les données d9—pprentiss—geF in ™l—ssi(™—tion —utom—tiqueD on distingue les données d9—pprentiss—ge qui ét—E˜lissent le modèle de ™l—ssi(™—tionD et les données de test qui sont ™l—ssées à l9—idedu modèleF €our —pprendre un modèle de ™l—ssi(™—tionD il existe plusieurs types d9—pEpro™hes qui dépendent de l— n—ture des données d9—pprentiss—geF ƒi les ™l—sses d9originedes données d9—pprentiss—ge sont ™onnuesD nous p—rlons d9—pprentiss—ge 4 supervisé 4Fxous p—rlons d9—pprentiss—ge 4 non supervisé 4 @ou de p—rtitionnement de donnéesAd—ns le ™—s où les ™l—sses d9origine ne sont p—s ™onnuesF …n troisième groupe r—ssem˜leles ™—s pour lesquels il existe une in™ertitude sur le l—˜el des données d9—pprentiss—geDp—r exemplesD le ™—s où seuls les — priori des ™l—sses sont ™onnusD ou le ™—s de l— ™l—ssi(E™—tion d9o˜jets d—ns des im—ges pour lesquelles l— présen™e et l9—˜sen™e des ™l—sses sont™onnues ‘P“F h—ns ™e ™—sD nous p—rlons d9—pprentiss—ge 4 f—i˜lement supervisé 4 ou d9—pEprentiss—ge 4 p—rtiellement supervisé 4F v9—pprentiss—ge 4 semiEsupervisé 4 est utiliséqu—nd il y — peu de données l—˜élisées ‘Q“F hes exemples s—ns l—˜el sont —lors —joutésà l9ensem˜le d9—pprentiss—ge qui ne ™ontient que des exemples de ™l—sses ™onnues d—ns
  11. 11. CHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DExiv LARTle ˜ut d9—™™roître l— qu—ntité d9inform—tionsF v9—pprentiss—ge f—i˜lement supervisé génér—lise les ™—s supervisés et semiEsupervisésFve prin™ipe de l9—pprentiss—ge f—i˜lement supervisé est d9—ttri˜uerD à ™h—que exempled9—pprentiss—geD un ve™teur qui indique les pro˜—˜ilités — priori d9—e™t—tion à ™h—que™l—sseF €—r exempleD en ™onsidér—nt IP o˜jets pour l9—pprentiss—ge et Q ™l—sses possi˜lesD—lors les ve™teurs qui fournissent les pro˜—˜ilités d9—e™t—tion pourr—ient être X 0.4 1 0.1 0 0 0.33 0.2 0.4 0 0.2 0.4 0 0.6 0 0 0 0.1 0.8 0.5 0.5 1 0 0.33 0.33 0.5 0.3 0.3 0.3 0 1 0.6 .2 0.5 0.1 0 1 @PFIAin —pprentiss—ge superviséD les pro˜—˜ilités d9—e™t—tion pourr—ient être X 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 1 0 0 1 0 1 0 1 0 1 @PFPAin —pprentiss—ge semiEsuperviséD les pro˜—˜ilités d9—e™t—tion pourr—ient être X 1 1 0 0 0 0 0.33 0.33 0.33 0.33 0.33 0.33 0 0 0 0 1 0 1 0 0 1 0 1 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33 0.33 @PFQA€our l— ™l—ssi(™—tion semiEsuperviséeD les exemples initi—lement s—ns l—˜el peuvent être™onsidérés ™omme l—˜élisés à l9—ide d9un ve™teur qui tr—duit le f—it que les ™l—sses sontéquipro˜—˜lesF einsiD les ™ompos—ntes du ve™teurD qui donnent l— pro˜—˜ilité des ™l—ssesDsont ég—lesF v9—pprentiss—ge semiEsupervisé peut —ussi être vu ™omme un ™—s d9—pprenEtiss—ge f—i˜lement supervisé pour lequel on —ur—it ee™tué un seuill—ge sur les — priori@si les pro˜—˜ilités de ™l—ssi(™—tion — priori sont simil—ires pour un o˜jet d9—pprentisEs—geD —lors les ™l—sses sont ™onsidérées ™omme équipro˜—˜lesD et si une pro˜—˜ilité de™l—ssi(™—tion — priori domine d—ns l9ensem˜leD —lors l— ™l—sse ™onsidérée est —ttri˜uéeà l9exemple ™on™ernéAF in(nD en —pprentiss—ge non superviséD le nom˜re de ™l—sse estin™onnu et —u™un l—˜el n9est disponi˜leF sl v— de soit que l— ™omplexité des modèles d9—pprentiss—ge —ugmente —ve™ l9in™erEtitude sur les l—˜elsF gepend—ntD un —lgorithme ™omplexe ou un —pprentiss—ge à p—rtird9un jeu de données très in™ert—ins n9engendre p—s né™ess—irement de m—uv—ises perEform—n™es de ™l—ssi(™—tionF €—r exempleD d—ns ™ert—ins ™—sD on montre que l9—jout dedonnées s—ns l—˜el —u jeu de donnée d9—pprentiss—ge @—pprentiss—ge semiEsupervisé ‘Q“Apermet d9—méliorer les perform—n™es de ™l—ssi(™—tionF €our l9—pprentiss—ge superviséD l9—pprentiss—ge non superviséD l9—pprentiss—ge f—iE˜lement superviséD et l9—pprentiss—ge semiEsuperviséD respe™tivement étudiés d—ns lesse™tions PFPD PFQD PFRD et PFSD nous expli™itons les modèles de ™l—ssi(™—tion —sso™iés et™—r—™térisons leurs diéren™esF gh—que méthode présentée est ™l—ssée d—ns une desgr—ndes f—milles de modèlesD à s—voir les modèles génér—tifsD les modèles dis™rimin—ntset les modèles hy˜rides que nous dé(nirons d—ns l— se™tion PFPF2.2 Classication supervisée ‚—ppelons que l9—pprentiss—ge supervisé ™onsiste à ét—˜lir un modèle de ™l—ssi(™—EtionD à p—rtir d9un ensem˜le d9—pprentiss—ge ™onstitué de données dont les ™l—sses sontp—rf—itement ™onnuesF
  12. 12. 2.2. CLASSIFICATION SUPERVISÉE xv2.2.1 Modèle génératif €renons l— dé(nition du mot 4 génér—tif 4 X 4 ui engendreD qui — r—pport à l—génér—tion 4 @gentre x—tion—l de ‚essour™e „extuelles et vexi™—lesAF h—ns ™e ™—sD lemodèle est pro™he des donnéesF ƒi l— loi ™onsidérée @xorm—leD fêt—D q—mm—D mél—ngede q—ussienneD exponentielleD €oissonD F F F A pour le modèle de ™l—ssi(™—tion est ™onveEn—˜lement ™hoisieD l— seule ™onn—iss—n™e du modèle peut permettre de re™onstituer unensem˜le d9o˜serv—tions possi˜lesF einsiD pour le modèle génér—tifD le ™l—ssi(eur estune fon™tion m—thém—tique qui dé™rit —u mieux l9org—nis—tion sp—ti—le des donnéesd—ns l9esp—™e des des™ripteursF €—r exempleD si un jeu de données forme un ensem˜lede ˜oules d—ns l9esp—™e des —ttri˜utsD nous pouvons modéliser le nu—ge de points p—run mél—nge de q—ussiennesF v9o˜je™tif de l9—pprentiss—ge ét—nt —lors de déterminer lespositions @moyennesA et les t—illes @v—ri—n™esA de ™h—que modeF €lus génér—lementD l9—pEprentiss—ge ™onsiste à estimer les p—r—mètres d9une loi ™i˜le etD pour l— ™l—ssi(™—tionDl— pro˜—˜ilité — posteriori donne les pro˜—˜ilités de ™h—que ™l—sseF ey—nt ™hoisi une densité de pro˜—˜ilité ™i˜le p—r—métriqueD une te™hnique ™onnue™onsiste à utiliser le m—ximum de vr—isem˜l—n™e @w†A pour estimer les p—r—mètres ‘R“‘S“ ‘T“ ‘U“ ‘V“ ‘W“ ‘IH“ ‘II“ ‘IP“ ‘IQ“F ves p—r—mètres optim—ux sont ™eux qui m—ximisentl— vr—isem˜l—n™eF ve ™—s multimod—l f—it que l— m—ximis—tion est très ™omplexeD d—ns™e ™—sD on utilise un —utre estim—teur du m—ximum de vr—isem˜l—n™e X l9—lgorithme 4ixpe™t—tion w—ximiz—tion 4 @iwA ‘IR“ ‘IS“ ‘IT“F gette méthode génér—tive permet detrouver le m—ximum de vr—isem˜l—n™e des p—r—mètres d9un modèle pro˜—˜iliste lorsquele modèle dépend de v—ri—˜les l—tentes non o˜serv—˜les @les proportions des modes dumél—ngeAF €lutôt que de trouver le jeu de p—r—mètres du modèle qui m—ximise l— vr—iEsem˜l—n™eD l9espér—n™e de l— logEvr—isem˜l—n™e ™omplétée p—r l— v—ri—˜le ™—™hée estm—ximisée ™onditionnellement à un jeu de p—r—mètres initi—lF gel— ™onduit —u ™—l™ulitér—tif de ™ette espér—n™e @ét—pe iA et des p—r—mètres qui m—ximisent ™ette espér—n™e@ét—pe wAF v— pro™édure est dét—illée d—ns l— se™tion QFP du ™h—pitre Q et d—ns let—˜le—u QFIF v— version sto™h—stique de l9—lgorithme ‘IU“D —ppelée —lgorithme ƒiwD préEvient des m—ximums lo™—ux de vr—isem˜l—n™eF h9—utres —mélior—tions de l9—lgorithmeportent sur l— r—pidité de ™onvergen™e de l9—lgorithme ‘IV“ ‘IW“F h—ns l9—lgorithme 4ixpe™t—tion gondition—l w—ximiz—tion 4 @igwA ‘PH“D l9ét—pe w est rempl—™ée p—r uneét—pe de m—ximis—tion ™onditionnelle des p—r—mètresF gh—que p—r—mètre est m—ximiséindividuellement ™onditionnellement —ux —utres qui sont (xésF f—sé sur le même prinE™ipe que l9—lgorithme igwD l9—lgorithme iw 4 génér—lisé 4 @qiwA ‘IR“ ‘IS“ ‘IT“ estune —ltern—tive employée qu—nd l9ét—pe w est di0™ilement ré—lis—˜leD not—mment sile ™—l™ul des dérivées premières est di0™ileF h—ns ™e ™—sD les p—r—mètres ne sont p—s™eux qui m—ximisent l9espér—n™e de l— logEvr—isem˜l—n™eD m—is n9importe quel jeu dep—r—mètres tel que ™ette espér—n™e soit supérieure à ™elle de l9itér—tion pré™édenteF w—lgré des perform—n™es —ssez moyennesD le ™l—ssi(eur ˜—yésien n—ïf ‘PI“ ‘PP“ ‘PQ“ estsouvent utilisé pour ™omp—rer des méthodes de ™l—ssi(™—tion entre ellesD expérimenterles ensem˜les de ™l—ssi(eurs ‘PR“ ou les pro™essus itér—tifs ‘PS“ @™h—pitre RAF ƒ9—ppuy—ntsur le théorème de f—yesD les prédi™tions de toutes les hypothèses sont pondérées p—rles pro˜—˜ilités — prioriF v9—utre p—rti™ul—rité est de supposer l9indépend—n™e entre lesdes™ripteursF einsiD l— méthode du w—ximum de †r—isem˜l—n™e peut être employée
  13. 13. CHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DExvi LARTpour estimer les p—r—mètres d9une loi liée à ™h—que des™ripteur indépend—mment ‘PT“Fgette dépend—n™e est restreinte p—r le ™l—ssi(eur eyhi @4 ever—ge yneEhependen™eistim—tor 4 en —ngl—isA ‘PU“ qui ™hoisit un seul des™ripteur dont il estime l— dépend—n™e—ve™ les —utresF ves perform—n™es sont —lors —™™rues p—r r—pport —u ™l—ssi(eur ˜—yésienn—ïfF v9 4 ello™—tion de hiri™hlet v—tente 4 @vheA ‘PV“ est une nouvelle te™hnique issuede l9 4 en—lyse ƒémentique v—tente €ro˜—˜iliste 4 @€vƒeA ‘PW“F gontr—irement à l— méEthode vheD l— méthode €vƒe est limitée p—r son impossi˜ilité à générer de nouve—uxexemplesD ™el— v— à l9en™ontre du prin™ipe des modèles génér—tifsF ges pro™édures sontutilisées en ™l—ssi(™—tion de do™uments qui sont ™l—ssés p—r 4 ™on™ept 4 @un do™umentpouv—nt être —sso™ié à plusieurs ™on™eptsAF v— te™hnique est ˜—sée sur l— ™orrél—tionentre les termes des do™umentsD les do™uments et les ™on™eptsF v— pro˜—˜ilité des do™uEments et des termes qui les ™omposent est fon™tion d9un mél—nge de lois @pro˜—˜ilité des™on™eptsD pro˜—˜ilité de ™h—que terme rel—tivement à ™h—que ™on™eptD et pro˜—˜ilité de™h—que do™ument rel—tivement à ™h—que ™on™eptAF v9inféren™e ˜—yésienneD qui permetde déduire ™h—™une des distri˜utions et l— distri˜ution — posterioriD peut être ee™tuéep—r —ppro™he v—ri—tionnelle ‘PV“D à l9—ide d9un é™h—ntillonn—ge de qi˜˜s ‘QH“D ou p—rprop—g—tion de l9espér—n™e @4 ixpe™t—tion €rop—g—tion 4 en —ngl—isA ‘QI“F ve form—Elisme m—thém—tique se r—ppro™he fortement des modèles de mél—ngeD ™epend—ntD en™l—ssi(™—tion de do™uments ™ette te™hnique trouve de nom˜reux —deptes ét—nt donnéeque les o˜serv—tions @les do™umentsA sont projetées d—ns une ˜—se p—rti™ulière qui ™orErespond —u di™tionn—ire des ™on™eptsF …ne —n—logie —ve™ l— ™l—ssi(™—tion d9o˜jets peutêtre ré—lisée si les o˜jets sont ™ontenus d—ns des im—ges —sso™iées à plusieurs ™l—ssesF ges modèles génér—tifs ont le déf—ut qu9ils né™essitent l— ™onn—iss—n™e de l— loi ™i˜leFin pr—tiqueD une séle™tion su˜je™tive de lois est ee™tuéeD puis un ™ritère de séle™tionpermet de retenir l— loi l— mieux —d—ptée ‘QP“F ve ™ritère le plus utilisé est l— v—lid—tion™roisée ‘QQ“ @év—lu—tions et st—tistiques des erreurs sur plusieurs expérien™esAD m—isd9—utres ™ritères existent ™omme le 4 gritère d9snform—tion d9ek—ike 4 @esgA ‘QR“ ou le4 gritère d9snform—tion ˜—yésien 4 @fsgA ‘QS“F2.2.2 Modèle discriminant v9—ppro™he dière pour le modèle dis™rimin—ntF v— dé(nition de l9—dje™tif 4 dis™riEmin—nt 4 est X 4 ui ét—˜lit ou permet d9ét—˜lir une distin™tion entre des éléments4 @gentre x—tion—l de ‚essour™e „extuelles et vexi™—lesAF einsiD d—ns le ™—dre de l—™l—ssi(™—tion —utom—tique d9o˜jetsD le modèle vise ex™lusivement à l— diéren™i—tiondes ™l—sses entre ellesF …n tel modèle ne dépend p—s de l9org—nis—tion intrinsèque desdonnéesF ƒeules l— m—nière et l— ™—p—™ité à diéren™ier les ™l—sses ™omptentF v— m—Ejorité des méthodes dis™rimin—ntes est ˜—sées sur le prin™ipe du ™—l™ul des ™oe0™ientsdes hyperpl—ns qui sép—rent les ™l—sses entre ellesF v9esp—™e des —ttri˜uts ét—nt s™indép—r les hyperpl—nsD il su0t de déterminer de quelle ™ôté de l9hyperpl—n se situe unexemple pour ™onn—ître s— ™l—sseF eprès un ˜ref invent—ire de ™es méthodes @4 l9en—Elyse his™rimin—nte de pisherD les ƒ†wD l— régression logistiqueD F F F AD nous évoqueronsdes modèles dis™rimin—nts plus singuliers ™omme les rése—ux de neurones et les 4 k pluspro™hes voisins 4F
  14. 14. 2.2. CLASSIFICATION SUPERVISÉE xvii v9 4 en—lyse his™rimin—nte de pisher 4 ‘QT“ ‘QU“ ‘QV“ @ou vhe pour 4 vine—r his™riEmin—nt en—lysis 4A f—it p—rtie des méthodes popul—iresF f—sée sur un ™ritère st—tistiquedu se™ond ordreD ™ette te™hniqueD optim—le d—ns le ™—s q—ussienD p—rt du prin™ipe que lesmoments du se™ond ordre sont identiques d9un groupe à l9—utreF v— pro™édure ™onsisteà trouver les ™oe0™ients de l9hyperpl—n qui m—ximisent le r—pport entre l— v—ri—n™einter ™l—sse et l— v—ri—n™e intr— ™l—sseF v— méthode est dét—illée d—ns l— se™tion QFQFIdu ™h—pitre QF …n —utre modèle très ™élè˜re est l— méthode des ƒ†w @4 ƒupport †e™tor w—™hine4A ‘QW“ ‘RH“ qui est dét—illée d—ns l— se™tion QFQFI du ™h—pitre QF ille résulte de l—™om˜in—ison de deux —ppro™hes X l9idée de m—ximiser les m—rges @dist—n™e entre l9hyEperpl—n sép—r—teur et l9exemple le plus pro™heA ‘RI“ ‘RP“ et l9idée des fon™tions noy—ux‘RQ“ ‘RR“ qui déforment l9esp—™e des des™ripteurs et permettent de p—sser des ™—s nonliné—irement sép—r—˜les —ux ™—s liné—irement sép—r—˜lesF sl existe une méthode dite des4 m—rges souples 4 qui tolère une ™ert—ine qu—ntité d9erreurs lors de l— re™her™he del9hyperpl—n optim—l et qui permet de résoudre les ™—s de re™ouvrement entre ™l—sses‘RS“ ‘RT“F €—rmi les méthodes de régressionD l— 4 régression logistique 4 ‘RU“ ‘RV“ ‘RW“ ‘SH“ sedistingue p—r le f—it que l— v—ri—˜le à prédire est une ™l—sseD iFeF une v—leur dis™rèteet non une v—leur ™ontinue ™omme en régression liné—ireF h—ns le ™—s de deux ™l—ssesDl9équ—tion de l9hyperpl—n sép—r—teur s9exprime en fon™tion du log—rithme du r—pport despro˜—˜ilités — posteriori des o˜serv—tionsF hiérentes méthodes ™omme l9—lgorithme dum—ximum de vr—isem˜l—n™e ‘RV“ peuvent —lors être utilisées pour estimer les ™oe0™ientsde l9hyperpl—n sép—r—teurF gette méthode — pour —v—nt—ge de ne p—s être p—r—métriqueet de modéliser dire™tement une pro˜—˜ilitéF in rev—n™heD elle ne s9—pplique qu9—uxdonnées s—ns v—leur m—nqu—ntes et elle est sensi˜le —ux individus hors normeF ges trois méthodes @vheD ƒ†wD régression logistiqueA sont développées d—ns le™—s ˜in—ireD iFeF seulement deux ™l—sses sont ™onsidéréesF gomment f—ire d—ns le ™—sde plusieurs ™l—sses c heux prin™ip—les —ppro™hes existentF v— méthode 4 oneEversusE—ll4 ™onsiste à —ttri˜uer un ™l—ssi(eur à ™h—que ™l—sse @le ™l—ssi(eur dis™rimine l— ™l—sse™onsidérée de toutes les —utresAF v— ™l—sse —ttri˜uée à un exemple test est l— plus proE˜—˜le —u sens des ™l—ssi(eursF v9—utre méthodeD —ppelée 4 oneEversusEone 4D ™onsisteà ét—˜lir un ™l—ssi(eur pour ™h—que ™ouple de ™l—sses possi˜leF v— ph—se de test ét—ntsimil—ire à l— méthode oneEversusE—llF h—ns ‘SI“D le ™—s des ™l—sses non m—jorit—iresest tr—itéD iFeF le ™—s où —près l— ™l—ssi(™—tion de l9exemple testD plusieurs ™l—sses sontéquipro˜—˜lesF …ne méthode ‘SP“ propose de résoudre le pro˜lème en s9—ppuy—nt surles te™hniques employées pour les ™odes ™orre™teurs d9erreursF …ne —utre propose l9utiElis—tion des ƒ†w d—ns le ™—s multiE™l—sses en ™h—nge—nt le ™ritère d9optimis—tion en un™ritère m—tri™iel ‘SQ“F …ne m—jorité de méthodes de ™l—ssi(™—tion ˜—sées sur les fon™tions noy—ux est préEsentée d—ns le livre 4 ve—rning with uernel 4 ‘RT“F v— méthode uEp™— @4 uernel €rin™ip—lgomponent en—lysis 4A ‘SR“ ‘SS“ y (gure not—mmentF gette te™hnique n9est p—s un moEdèle de ™l—ssi(™—tion à p—rt entièreD m—is un moyen d9—méliorer les perform—n™es de™l—ssi(™—tion des modèles liné—ires déjà exist—ntF v9idée est simple X en —sso™i—nt lesfon™tions noy—ux —ve™ une 4 —n—lyse en ™ompos—nte prin™ip—le 4 @€geA ‘ST“D l9esp—™edes des™ripteurs est tr—nsformé tel que des groupes non liné—irement sép—r—˜les d—ns
  15. 15. CHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DExviii LARTl9esp—™e de dép—rt puissent le devenir d—ns l9esp—™e d9—rrivéeF hès que l9on dispose d9un™l—ssi(eur dis™rimin—nt liné—ireD à l9inst—r du modèle vheD de l— régression logistiqueDou de n9importe quel ™l—ssi(eur à m—ximum de m—rgeD —lors l— méthode uEp™— peut être—ppliquée en —mont et permet —insi de p—sser d9un ™l—ssi(eur liné—ire à un ™l—ssi(eurnon liné—ireF ves dét—ils de l— méthode sont donnés d—ns l— se™tion QFQFI du ™h—pitre QF ves premiers rése—ux de neurones —™™omplis @on p—rle —lors de rése—ux multi™ou™hesA ‘SU“ ‘SV“ ‘SW“ sont —pp—rus à p—rtir de IWVS et sont utilisés depuis en ™l—sEsi(™—tion —utom—tique d9o˜jetsF …n neurone prend en entrée les sorties des neuronespré™édentsF v— sortie est une fon™tionD —ppelée 4 fon™tion d9—™tiv—tion 4D d9une ™om˜iEn—ison liné—ire des entréesF €lusieurs neurones peuvent être mis en p—r—llèle et plusieurs™ou™hes de neurones peuvent être ™onsidéréesF …ne ™—r—™téristique import—nte d9un réEse—u de neurones est le ™ompromis entre l— ™omplexité de son —r™hite™tureD dé(nie p—rle nom˜re de ™ou™hes et le nom˜re de neurones p—r ™ou™heD et entre s— ™—p—™ité d9—pEprentiss—ge qui est liée —u sur —pprentiss—geF xotons que les rése—ux de neurones sontsujets —ux sur —pprentiss—gesD il est —lors né™ess—ire de supprimer des ™onnexions @—lEgorithme 4 optim—l ˜r—in d—m—ge4 ‘TH“ ou —lgorithme 4 optim—l ˜r—in surgeon 4 ‘TI“AF…ne fois que l9—r™hite™ture du rése—u est ™hoisieD l9—pprentiss—ge ™onsiste à trouver lesv—leurs des poids de l— ™om˜in—ison liné—ire des entrées de ™h—que neuroneF €our ™el—Dune minimis—tion de l— fon™tion de ™oût @souvent l9erreur qu—dr—tiqueAD qui déterminel9o˜je™tif à —tteindreD est ee™tuéeF v— diéren™e entre les méthodes proposées portesur le ™hoix de l— fon™tion ™oûtD sur l— m—nière de minimiser ™ette fon™tionD sur le ™hoixde l9—r™hite™ture du rése—u ou sur le ™hoix de l— fon™tion d9—™tiv—tionF €—r exempleDd—ns ‘SV“D une des™ente de gr—dient est ee™tuéeD l9origin—lité ét—nt l— f—çon de ™—l™ulerle gr—dient de l— fon™tion de ™oûtF xotons que l9—n—lyse dis™rimin—nte de pisher ou lesƒ†w liné—ires sont des rése—ux de neurones à un seul neurone dont les poids —e™tés à™h—que entrée ™orrespondent —ux ™oe0™ients de l9hyperpl—n sép—r—teurF v— méthode des 4 K plus pro™hes voisins 4 ‘TP“ dière des —utres modèles dis™rimiEn—nts p—r l9—˜sen™e d9hyperpl—ns sép—r—teursD l9unique idée génér—tri™e reste ™epend—ntd9—e™ter une ™l—sse à un individu in™onnuF v— pro™édure est très simple X il f—ut trouEverD d—ns l9ensem˜le d9—pprentiss—geD l— ™l—sse m—jorit—ire p—rmi les K plus pro™hesvoisins de l9exemple à ™l—sserF gel— p—sse p—r l— dé(nition d9une dist—n™e entre o˜jets‘TQ“D qui dépend de l— n—ture des des™ripteurs de l9o˜jetF €—r exempleD une dist—n™e euE™lidienne peut ™onvenir pour des des™ripteurs pren—nt leur v—leur d—ns l9ensem˜le desréelsD m—is d—ns le ™—s de des™ripteurs formés de densités de pro˜—˜ilité une dist—n™ede fh—tt—™h—ryy— ‘TR“ ou de uull˜—™kEvei˜ler ‘TS“ est préfér—˜leF v— di0™ulté se trouved—ns l— pro™édure de re™her™he des plus pro™hes voisinsD not—mment si l9ensem˜le d9—pEprentiss—ge est volumineuxD entr—în—nt des longueurs d—ns le temps de ™—l™ulF €our™el— des —lgorithmes de re™her™he ont été développés ‘TT“ ‘TU“D leur prin™ipe ét—nt desto™ker les exemples pro™hes en dist—n™e et de pro™éder p—r regroupement hiér—r™hiquedes donnéesF €—rmi les méthodes dis™rimin—ntesD l— méthode ƒ†w est ™elle qui remporte le plusfr—n™ su™™ès d—ns le dom—ine de l— vision p—r ordin—teurF gel— est prin™ip—lement dû—u f—it que le modèle de ™l—ssi(™—tion est non liné—ireD produis—nt de très ˜onnes perEform—n™es de ™l—ssi(™—tion pour l— plup—rt des expérien™esF gepend—ntD les ƒ†w sontdépend—nts d9un gr—nd nom˜re de p—r—mètres liés à l— souplesse des m—rgesD l— dyE
  16. 16. 2.2. CLASSIFICATION SUPERVISÉE xixn—mique de pro˜—˜ilis—tionD et le ™hoix du noy—uD p—r ™onséquentD ™ert—ins dom—iness™ienti(ques préfèrent l9emploi de modèles plus —utonomes ™omme les régressions loEgistiques @™9est le ™—s des études st—tistiques d—ns le dom—ine ˜—n™—ireD d—ns ™elui des—ssur—n™es ou des sond—gesD et en méde™ineAF2.2.3 Modèle hybride : arbres de classication hes modèles hy˜rides existentF veur dém—r™he s9—ppuie à l— fois sur les —ppro™hesgénér—tives et dis™rimin—ntesF €—rmi euxD on trouve les modèles ˜—sés sur les —r˜resde ™l—ssi(™—tion @ou de dé™isionAF €remièrementD l— méthode est fondée sur un é™h—nEtillonn—ge de l9esp—™e des —ttri˜uts à l9—ide d9hyper volumes d9é™h—ntillonn—ge de t—illediérente et de dimension (nie ou in(nieF v9é™h—ntillonn—ge dé™rit l9o™™up—tion de l9enEvironnement et dépend dire™tement de l— forme des nu—ges de points des diérentes™l—ssesF ejoutons queD ™omme pour un histogr—mmeD le nom˜re d9individus est ™onnud—ns ™h—que volume d9é™h—ntillonn—geD ™e qui —utorise l— génér—tion —lé—toirement desdonnées d—ns ™es volumes élément—iresF ge™i permet de nous positionner d—ns le ™—sgénér—tifF heuxièmementD les volumes é™h—ntillonnés sont o˜tenus p—r dis™rimin—tionssu™™essives de sous ensem˜les de donnéesD le prin™ipe ét—nt de s™inder un volume del9esp—™e en deux p—rties homogènes en ™l—sseF gette s™ission n9— qu9un seul o˜je™tif Xsép—rer les ™l—sses entre ellesF gel— nous positionne d—ns le ™—s dis™rimin—ntF …n —r˜re de ™l—ssi(™—tion ™omporte des noeuds qui sont —sso™iés à des règles dedé™isionF v— tot—lité forme un ensem˜le de ™hemins qui p—rtent du noeud prin™ip—l versles noeuds termin—ux —uxquels sont —ttri˜ués des ™l—ssesF …n noeud donné renvoie versdes noeuds (ls en fon™tion de l— règle de dé™ision (xéeF ge même noeud est engendrép—r un noeud p—rentF ve prin™ipe de ™onstru™tion d9un —r˜re repose sur l— s™issiond9un groupe d9exemples pour un des™ripteur donnéF eu noeud ™onsidéréD l— meilleure—sso™i—tion entre un des™ripteur et une v—leur de ™oupureD est ™elle qui m—ximise le g—ind9inform—tionF eutrement ditD l— s™ission doit donner des groupes qui sont homogènesen ™l—ssesF in pr—tiqueD ™h—que v—leur de ™oupure est testée pour ™h—que des™ripteurDpuis le ™ouple formé p—r le des™ripteur et l— v—leur de ™oupure qui m—ximise le g—ind9inform—tion est retenu et —sso™ié —u noeud ™onsidéréF …n noeud est ™hoisi ™ommeét—nt un noeud (n—l si son nive—u d9 4 impureté 4 est f—i˜leD iFeF si une ™l—sse dominel—rgementF …ne fois l9—r˜re ™onstruitD un exemple test p—r™ourt l9—r˜re jusqu9—u noeudtermin—l qui dé(nit l— ™l—sse —ttri˜uéeF ve form—lisme et les dét—ils m—thém—tiquessont présentés d—ns l— se™tion QFRFI du ™h—pitre Q pour le ™—s usuel de l9—pprentiss—gesuperviséF ves méthodes ™onnues dièrent p—r le ™hoix du ™ritère de g—in d9inform—tionF gerEt—ins ™her™hent à m—ximiser le ™ritère de qini ‘TV“ @méthode ge‚„ X 4 gl—ssi(™—tionend ‚egression „rees 4AD d9—utres pré™onisent l9entropie de ƒh—nnon ‘TW“ ‘UH“ @méthodeshQ et gRFSAD et ™ert—ines méthodes proposent d9utiliser un test st—tistique fondé surl— loi du χ2 @méthode gresh ‘UI“ X 4 griEsqu—re eutom—ti™ snter—™tion hete™tion 4et méthode …iƒ„ ‘UP“ X 4 ui™kD …n˜i—sedD i0™ientD ƒt—tisti™—l „ree 4AF v— méthode…iƒ„ permet de ™onstruire un —r˜re de dé™ision plus r—pidementF h—ns …iƒ„Dle meilleur des™ripteur est d9—˜ord ™hoisi en ™om˜in—nt une —n—lyse de l— v—ri—n™e @4exy†e 4A —ve™ le test du χ2 ou le test de vevene ‘UQ“ @en fon™tion de l— n—ture disE
  17. 17. CHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DExx LART™rète ou ™ontinue du des™ripteurF xotons que gRFS est une évolution dire™te de shQD les—mélior—tions port—nt sur l— gestion des données numériquesD sur l— prise en ™omptedes données m—nqu—ntes et sur l— r—pidité d9exé™utionF €lutôt que de ™her™her l— v—leur de ™oupure sur ™h—que des™ripteur indépend—mEmentD des méthodes proposent des ™ritères de 4 sép—r—tion o˜liques 4 ‘UR“ qui s9—ppuientsur un modèle de ™l—ssi(™—tion à plusieurs des™ripteursF ve modèle ™hoisi peut être detype ƒ†w ‘US“ ‘UT“ ou s9—ppuyer sur l9—n—lyse dis™rimin—nte liné—ire de pisher ‘UU“F uelques p—piers —˜ordent les —r˜res de ™l—ssi(™—tion d—ns le ™—dre de l— logique4 )oue 4F €—r exempleD un —r˜re est ™onstruit à l9—ide de l— méthode ge‚„D puis desrègles de dé™isions )oues sont él—˜orées à p—rtir des frontières des é™h—ntillons d9hypervolumes ‘UV“F ve même pro™édé est employé pour l9—lgorithme shQ ‘UW“F €our d9—utresexemples ‘VH“D l— logique )oue intervient d—ns le ™—l™ul des v—leurs de ™oupureF €lutôtque d9—voir une s™ission nette et pré™iseD l— frontière est in™ert—ine telle que le degréd9—pp—rten—n™e à un groupe dépend de l— dist—n™e entre l9exemple ™onsidéré et l— v—leurde ™oupure ™onsidéréeF ves règles de dé™ision sont —lors dire™tement liées à l9—ppli™—tion™onsidérée ‘VI“F v9un des déf—uts m—jeurs des —r˜res de ™l—ssi(™—tion est leur disposition à ne ™onsiEdérer que les ™l—sses m—jorit—irement représentées d—ns l9ensem˜le d9—pprentiss—geF €—rexempleD l— méthode ge‚„ privilégie les ™l—sses domin—ntes d9un jeu de données disEtri˜uées inég—lement ‘VP“F ƒi le modèle d9une ™l—sse sousEreprésentée est m—l év—luéD—lors ™ette ™l—sse est souvent ™l—ssée p—rmi l— ™l—sse m—jorit—ire de l9ensem˜le d9—pEprentiss—geF €our remédier à ™e pro˜lèmeD le ™ritère de s™ission peut être —mélioréen ™hoisiss—ntD p—r exempleD une entropie dé™entrée ‘VQ“D ou en ee™tu—ntD soit un surEé™h—ntillonn—ge de l9ensem˜le sousEreprésenté ‘VR“D soit un sousEé™h—ntillonn—ge de l9enEsem˜le surEreprésenté ‘VS“F hes tr—v—ux ‘TV“ ont montré qu9—près ™onstru™tionD il est souvent né™ess—ire d9él—guerl9—r˜reF in eetD lors de l9—pprentiss—geD une ™ontr—inte permet de déterminer si unnoeud est r—isonn—˜lement homogène @si tel est le ™—sD —lors le noeud est un noeudtermin—lAF h—ns le ™—s où ™ette ™ontr—inte est trop forte et qu9il y — du re™ouvremententre ™l—ssesD ™ert—ins volumes élément—ires sont insigni(—nts et n9impliquent qu9unseul exempleF h—ns ™e ™—sD il —pp—r—ît des phénomènes de surE—pprentiss—ge et de surEé™h—ntillonn—ge de l9esp—™e des des™ripteursF geuxE™i sont résolus grâ™e à l9él—g—geF slexiste deux gr—ndes f—milles de méthodes ‘VT“ ‘VU“ X soit l9—r˜re o˜tenu est simpli(éen ™oup—nt toutes les ˜r—n™hes d9un noeudD soit un noeud est rempl—™é p—r l9un dessousE—r˜res qui en des™endD les exemples des sousE—r˜res disp—rus ét—nt re™l—ssésF sl est génér—lement —dmis qu9—u™une de ™es propositions @™hoix du ™ritère de s™isEsionD —r˜res o˜liquesD logique )oueD él—g—ge F F F A ne dev—n™e une —utre de m—nière sysEtém—tique en termes de perform—n™e de ™l—ssi(™—tionF gel— dépend du jeu de donnéesemployéD de l— n—ture dis™rète ou ™ontinue des v—ri—˜lesD de l9org—nis—tion intrinsèquedes ™l—sses d—ns l9esp—™e des des™ripteursD du f—it d9être en gr—nde dimension ou nonDde l— t—ille de l9ensem˜le d9—pprentiss—geD de l— distri˜ution des ™l—sses F F F
  18. 18. 2.3. CLASSIFICATION NON SUPERVISÉE xxi2.3 Classication non supervisée in —pprentiss—ge non superviséD seules les v—leurs données p—r les des™ripteurs sonto˜serv—˜lesF ves exemples ne disposent d9—u™un étiquet—ge et le nom˜re de ™l—sses estin™onnuF gel— ™onstitue les prin™ip—les interrog—tions X ™om˜ien y —EtEil de ™l—sses c itDen suppos—nt le nom˜re de ™l—sses (xéD ™omment ét—˜lir un ™l—ssi(eur c v— première question trouve peu de réponseF ve nom˜re de ™l—sses réellement o˜serEvées est di0™ilement détermin—˜le s—ns inform—tions — priori et il dépend de l9—ppli™—Etion ™onsidéréeF v— di0™ulté se résume d—ns le pro˜lème suiv—nt X ™omment diéren™ierle ™—s de plusieurs regroupements de données qui ™orrespondent à plusieurs ™l—sses etle ™—s de regroupements qui ™orrespondent à des modes d9une seule ™l—sseF ƒ—ns —uE™une inform—tion — priori ou ™ontextuelleD ™el— sem˜le impossi˜leF in rev—n™heD des™ritères de qu—lité mesurent l— pertinen™e du ™hoix du nom˜re de ™l—sses ‘VV“F €—rmi™es ™ritèresD ™ert—ins s9—ppuient sur l9indi™e fsg @4 f—yesi—n snform—tion griterion 4A‘QS“ ou sur le ™ritère esg @4 ek—ike9s snform—tion griterion 4A ‘VW“D ou en™ore sur des™ritères st—tistiques de dist—n™es ‘WH“ ‘WI“ F F F in(nD d9—utres méthodes sont ˜—sées surle prin™ipe de l— v—lid—tion ™roisée ‘WP“F v— deuxième question trouve ˜e—u™oup de solutionsF ves premiers tr—v—ux ‘WQ“ ‘WR“en regroupement non supervisé de données ™onduisent à des méthodes de ™l—ssi(™—tionhiér—r™hiquesF ve prin™ipe est de ™onsidérer l— p—rtition à une seule ™l—sse qui ™omprendtoutes les o˜serv—tions jusqu9à l— p—rtition où ™h—que o˜serv—tion est une ™l—sseF intresles deux extrémitésD l9utilis—teur doit ™hoisir l— p—rtition l— plus ré—listeF €our ™el—D les™ritères de qu—lité qui mesurent l— pertinen™e du ™hoix du nom˜re de ™l—sses sont utilisés‘VV“ ‘QS“ ‘VW“ ‘WH“ ‘WI“F ge type de ™l—ssi(™—tion hiér—r™hique est simil—ire —ux —r˜res de™l—ssi(™—tionsF freim—n ‘WS“ propose une méthode d9—pprentiss—ge non supervisé pourles —r˜res de ™l—ssi(™—tionF v9idée est origin—le X p—rt—nt d9un ensem˜le de points s—nsl—˜el qui ™onstitue l— première ™l—sseD une se™onde ™l—sse est ™réée —rti(™iellement surl— ˜—se d9un tir—ge —lé—toire des des™ripteurs de l— première ™l—sseF in ™onstruis—ntun —r˜re qui sép—re les deux ™l—ssesD on espère que l— première ™l—sse ser— s™indée engroupes homogènes qui ™onstituent les 4 ™lusters 4 souh—itésF v— te™hnique ™onsisteensuite à déterminer quels sont les groupes qui sont reliés entre euxD p—r exemple vi—une m—tri™e de proximité ‘WT“F €eu d9—rti™les ont été pu˜liés à ™e sujet et le pro™édé estdi0™ilement —ppli™—˜le pour les ™—s de données dont l9org—nis—tion sp—ti—le n9est p—strivi—leF €—rmi les modèles de mél—ngesD l— méthode l— plus ™élè˜re d9—pprentiss—ge non suEpervisé est l— méthode des 4 uEmoyennes 4 ‘WU“ ‘WV“F €—rt—nt d9un nom˜re de pointsd9initi—lis—tion ég—l —u nom˜re de regroupements souh—itésD on ™her™he simplementà regrouper les exemples en groupes homogènes —u sens des des™ripteursF v— méEthode ™onsiste à étiqueter itér—tivement les individus en fon™tion de leur dist—n™e —ve™les points d9initi—lis—tion qui ™h—ngent d9une itér—tion à l9—utreF hivers modi(™—tions™ontri˜uent à l9—™™élér—tion de l9—lgorithme ‘WW“ ou ™her™hent l— meilleure initi—lis—tion‘IHH“F v— méthode des 4 uEmoyennes 4 est étendue à l— logique )oue à l9—ide l9—lgoErithme pgw @4 puzzy gEwe—ns 4A ‘IHI“F eprès —voir regroupé les données p—r p—quetsà l9—ide de l9—lgorithme des uEmoyennesD l9—spe™t )ou se ™—r—™térise p—r l— possi˜ilitéd9—ttri˜uer plusieurs ™l—sses p—r élément ‘IHP“F h9—utres méthodes mél—ngent l9—lgoE
  19. 19. CHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DExxii LARTrithme pgw —ve™ des —ppro™hes )oues de l9estim—tion du m—ximum de vr—isem˜l—n™e‘IHQ“F v9—lgorithme iw ‘IR“ ‘IS“ ‘IT“ et ses dérivées ƒiwD igwD qiw ‘IU“ ‘IV“ ‘IW“‘PH“ ™onstituent l9extension pro˜—˜iliste des 4 uEmoyennes 4F sls permettent de trouverles proportions et les p—r—mètres des modes d9une loi ™i˜leF w—isD ™ontr—irement —u ™—sde l9—pprentiss—ge supervisé qui ™onsidère que ™h—que ™l—sse peut être modélisée p—run mél—nge de loisD en —pprentiss—ge non supervisé une ™l—sse ™orrespond à l9un desmodes du mél—ngeF v9—pprentiss—ge ™onsiste don™ à —pprendre les p—r—mètres des lois de™h—que ™l—sse —insi que les pro˜—˜ilités — priori de f—çon à m—ximiser l— vr—isem˜l—n™edes donnéesF in(nD les rése—ux de neurones possèdent —ussi leur version de ™l—ssi(™—tion nonsuperviséeF sniti—lisés p—r les tr—v—ux de qross˜erg ‘IHR“D les v† @4 ve—rning †e™toru—ntiz—tion 4A sont un ™—s p—rti™ulier des rése—ux de neuronesF v— méthode qui enrésulte @ƒyw pour 4 ƒelfEyrg—niz—tion w—p 4 ou en™ore —ppelée les 4 g—rtes de uoEhonen 4A ‘IHS“ ‘IHT“ ‘IHU“D forme un rése—u ™omposé de deux ™ou™hesD l9une pour lesentréesD l9—utre qui dé™rit l9org—nis—tion des neurones de m—nière topologiqueF vors del9—pprentiss—geD les neurones ™i˜les de l— se™onde ™ou™he for™ent leurs voisins à modi(erleurs poids en f—veur de l9exemple ™on™ernéF pin—lementD les poids dé™rivent l— densitéet l— stru™ture de l— rép—rtition des ve™teurs d9entréeF v9utilis—tion de l9une ou l9—utre de ™es méthodes dépend de l9—ppli™—tion visée et del9org—nis—tion intrinsèques des données d—ns l9esp—™e des des™ripteursF he m—nière géEnér—leD l9—lgorithme des uEmoyennes est le plus utiliséD pour s— simpli™ité et s— r—piditéDm—is —ussi ™—r il n9est p—s sujet à —ux sou™is d9optimis—tionsF2.4 Classication faiblement supervisée in ™l—ssi(™—tion f—i˜lement superviséeD il existe une in™ertitude sur l— ™l—sse desexemples d9—pprentiss—geF gette in™ertitude se ™—r—™térise p—r un ve™teur dont les ™omEpos—ntes sont les pro˜—˜ilités de ™l—ssi(™—tion — priori de ™h—que ™l—sseF v9ensem˜led9—pprentiss—ge est don™ ™onstitué des exemples d—ns l9esp—™e des des™ripteurs et desve™teurs de pro˜—˜ilité de ™l—ssi(™—tion —sso™iés @™fF équ—tion PFIAF €eu de p—piers —˜ordent le ™—s de l9—pprentiss—ge f—i˜lement supervisé sous ™e forEm—lisme pro˜—˜ilisteF ve ™—s le plus popul—ireD le plus tr—itéD et —y—nt f—it l9o˜jet d9unem—jorité de pu˜li™—tionsD est le ™—s p—rti™ulier des —nnot—tions qui indiquent quelles™l—sses sont possi˜les de m—nière équipro˜—˜leF €—r exempleD on p—rle du ™—s 4 préEsen™eG—˜sen™e 4 en index—tion d9im—ges X ét—nt donnée une ˜—se d9im—ges dont l—présen™e ou l9—˜sen™e de 4 ™on™epts 4 @™l—ssesA est ™onnue d—ns ™h—que im—ge ‘IHV“‘IHW“D un modèle de ™l—ssi(™—tion des o˜jets doit être ét—˜liF hes modèles pro˜—˜ilistesgénér—tifs s9—ppuy—nt sur l9—lgorithme iw ‘P“ ‘IIH“ ‘IHV“ ‘IHW“ ou sur les ™h—mps dew—rkov —lé—toires g—ussien ‘III“ ont été développésD m—is —ussi des modèles dis™rimiEn—nts qui emploient des te™hniques de type ƒ†w ‘IIP“ ‘IIQ“D ou en™ore des modèles˜—sés sur du 4 ˜oosting 4 ‘IIR“ ‘IIS“ @voir ™h—pitre R pour le ˜oostingAF ves diéren™esentre ™es méthodes portent sur le nom˜re de ™on™epts tr—ités d—ns les im—gesD sur lenom˜re d9exemples d9—pprentiss—geD sur l— ™omplexité des im—gesD et sur les hypothèsesretenues rel—tivement —ux tr—nsform—tions des fr—gments d9une im—ge à l9—utreF €—r
  20. 20. 2.5. CLASSIFICATION SEMI-SUPERVISÉE xxiiiexempleD ™ert—ins ™onsidèrent que les régions d9intérêts sont ™onst—ntes en é™helle m—isqu9elles su˜issent des rot—tions et des tr—nsl—tions ‘IIT“ ‘IIU“D d9—utres ‘IIV“ ‘IIW“D sousles mêmes hypothèsesD ex—minent les inter—™tions sp—ti—les entre fr—gment d9im—ges —(nde p—rf—ire le modèleF hes modèles génér—tifs plus ™omplets ‘IPH“ ‘IPI“ permettent delo™—liser l9o˜jet tout en pren—nt en ™ompte s— tr—nsl—tionD s— rot—tion et son é™helled—ns les im—ges d9—pprentiss—geF e l9inst—r de l9—pprentiss—ge semiEsuperviséD ‚osen˜erg‘IPP“ montre qu9en —jout—nt des im—ges —nnotées en présen™eG—˜sen™e @f—i˜lement suEperviséeA à des im—ges —nnotées de m—nière pré™ise @superviséeAD —lors les perform—n™esde ™l—ssi(™—tion peuvent être —mélioréesF ves mêmes modèles génér—tifs sont utilisés ensegment—tion d9im—ges ‘IPQ“ ou pour l— déte™tion de ™on™epts d—ns des vidéos —nnotées‘IPR“F h9—utres exemples p—rti™uliers proposent un —pprentiss—ge f—i˜lement superviséF gesle ™—s d9o˜jets d9—pprentiss—ge dire™tement —nnotés p—r des experts ‘IPS“D ou en™oreDdes —ppli™—tions en télédéte™tionD et not—mment en interprét—tion d9im—ges ‘VI“F ve™—s de l9—™oustique h—lieutique est un ™—s typique d9—pprentiss—ge f—i˜lement supervisé‘IPT“D il est étudié d—ns l— p—rtie ssF in(nD ™ert—ins ™—s d9—sso™i—tions de ™l—ssi(eurs né™essitent l9utilis—tion d9un —pEprentiss—ge f—i˜lement superviséF €—r exempleD en —pprentiss—ge semiEsupervisé itér—tif‘Q“D les p—r—mètres du ™l—ssi(eur d9une itér—tion donnée sont estimés sur l— ˜—se despro˜—˜ilités de ™l—ssi(™—tion issues de l9itér—tion pré™édenteF gomme d—ns l— plup—rt des pro˜lèmes de ™l—ssi(™—tionD il n9existe p—s un modèle quiest meilleur que les —utresD ™h—que jeu de données ™orrespond à un type de ™l—ssi(euren fon™tion des ses ™—r—™téristiques propresF he plusD en ™l—ssi(™—tion f—i˜lement suEperviséeD il existe l— notion de ™omplexité de l9ensem˜le d9—pprentiss—geD qui est dé(nitp—r l— n—ture des pro˜—˜ilités de ™l—ssi(™—tion — prioriF ƒi ™es pro˜—˜ilités — priori sontf—i˜lesD —lors le jeu de données est ™omplexe ™—r les inform—tions sur les ™l—sses sont peuinform—tivesD en rev—n™heD —ve™ un — priori fortD le jeu de données d9—pprentiss—ge estpeu ™omplexe du f—it de l— pré™ision forte des inform—tions liés —ux l—˜elsF ves tr—v—ux™ités pré™édemment ne font p—s d9étude des réponses des ™l—ssi(eurs rel—tivement àl— ™omplexité des l—˜elsD l9idée ét—nt plutôt de trouver le meilleur ™l—ssi(eur pur unensem˜le d9—pprentiss—ge donnéeF h—ns le ™h—pitre SD nous —pportons des éléments deréponsesF2.5 Classication semi-supervisée get ét—t de l9—rt est l—rgement inspiré du livre de gh—pelle ‘Q“ et de l9étude ˜iE˜liogr—phique de hu ‘IPU“F gepend—ntD leurs ét—ts de l9—rt ne font p—s mention desméthodes d9—pprentiss—ge semiEsupervisé utilisées pour l— ™l—ssi(™—tion des données™orrélées @tr—du™tion de l9—ngl—is 4 rel—tion—l d—t— 4AD dont les prin™ip—les —ppli™—tionssont l— ™l—ssi(™—tion de p—ges we˜F v9—pprentiss—ge semiEsupervisé est utilisé qu—nd peu de données l—˜élisées sont disEponi˜lesF h—ns ™e ™—sD il — été montré que l9introdu™tion de données s—ns l—˜el d—nsl9ensem˜le d9—pprentiss—ge peut —méliorer les perform—n™es de ™l—ssi(™—tion ‘Q“F sl existeplusieurs f—milles de méthodesD à s—voirD les modèles génér—tifsD les modèles qui s9—pE
  21. 21. CHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DExxiv LARTpuient sur des gr—phesD les modèles dis™rimin—nts et les modèles itér—tifs qui s9—ppuientsur n9importe quel ™l—ssi(eur de ˜—seF v— première f—mille de méthodes regroupe les modèles génér—tifs ‘Q“F ve modèleemployé usuellement se ˜—se sur l9—lgorithme iwF ve prin™ipe est d9estimer l— denEsité de pro˜—˜ilité jointe des o˜serv—tions et des l—˜elsF gomme en ™l—ssi(™—tion nonsupervisée @™fF l— se™tion PFQ du ™h—pitre PAD on suppose que ™h—que ™l—sse suit une denEsité de pro˜—˜ilité p—r—métriqueD dont on estime les p—r—mètresF w—is ™ontr—irement—u ™—s non superviséD les ™l—sses sont ™onnuesD il su0t don™ de ™onn—ître un exemplel—˜élisé p—r ™l—sse pour déduire les p—r—mètres —sso™iés à ™h—™une des ™l—ssesF xouspouvons ™iter les —rti™les de xig—m qui proposeD vi— l9—lgorithme iwD d9estimer lesp—r—mètres de modèles f—yésien n—ïf q—ussien d—ns le ™—s mono mod—l ‘IPV“ ou multimod—l ‘IPW“D et dont les méthodes sont regroupées d—ns le ™h—pitre 4ƒemiEsupervisedtext ™l—ssi(™—tion using iw4 du livre 4ƒemiEsupervised le—rning4 ‘Q“F xotons que l9—lEgorithme génér—tif d9—pprentiss—ge f—i˜lement supervisé de l— se™tion QFPFQ du ™h—pitreQ est l9un de ™es modèles génér—tifs qui peut être —ppliqué —u ™—s de l9—pprentiss—gesemiEsuperviséF ges modèles possèdent l9—v—nt—ge d9—voir ˜e—u™oup été étudiés d—nsl— littér—ture et d9être —ppré™iés pour leur stru™ture pro˜—˜ilisteF in rev—n™heD il estdi0™ile d9év—luer l— justesse des modèles génér—tifs et il f—ut ™onn—ître l— loi ™i˜le pour™h—que jeux de donnéesF he plusD l9—lgorithme iw est sujet à l— question des minim—slo™—ux et ™ert—ines org—nis—tions intrinsèques des données ™onduisent l9—lgorithme versde m—uv—ises solutions ‘IQH“F v— deuxième gr—nde f—mille de modèles est l9—ppro™he dis™rimin—nteF €—rmi les méEthodes dis™rimin—ntesD l— méthode des m—™hines à ve™teurs de support semiEsuperviséeest l— plus utilisée ‘Q“F in —ngl—isD on trouve les termes 4 semiEsupervised ƒ†w 4@ƒQ†wA ou en™ore 4 „r—nsdu™tive ƒ†w 4 @„ƒ†wAF v— méthode ™onsiste à trouverles ™oe0™ients de l9hyperpl—n qui sép—re les ™l—sses entre elles et tel que l— m—rge soitm—xim—le @™fF l— se™tion QFQ du ™h—pitre QAF €—r r—pport à l9—pprentiss—ge superviséDun terme de régul—ris—tion est —jouté d—ns l9équ—tion d9optimis—tionF geluiE™i tient™ompte des données non l—˜éliséesF ves premières propositions ‘IQI“ m—nqu—ient dero˜ustesseD not—mment visEàEvis de l— qu—ntité d9exemples s—ns l—˜elF to—™hims ‘IQP“propose l— première version ro˜usteF h9—utres p—piers proposent des —mélior—tionsD™omme p—r exempleD une —d—pt—tion —u ™—s multiE™l—sses ‘IQQ“D un —lgorithme r—pidepour les ƒQ†w liné—ires ‘IQR“D une dyn—mique de pro˜—˜ilis—tion g—ussienne à l— pl—™ed9une dyn—mique liné—ire ‘IQS“ F F F w—lgré un form—lisme m—thém—tique —ppré™i—˜le etde ˜onnes perform—n™esD not—mment pour les jeux de données pour lesquels les ƒ†wsupervisés sont très perform—ntsD ™ette méthode reste sujette —ux points optim—ux loE™—ux et donne des perform—n™es modestes pour ˜e—u™oup de jeux de donnéesF gh—pelleDƒindhw—ni et ueerthi ‘IQT“D proposent une ˜i˜liogr—phie et ™omp—re les résult—ts desméthodes d9—pprentiss—ge semiEsupervisé qui emploient les ƒ†wF ves modèles ˜—sés sur les gr—phes de simil—rité ™onstituent une —utre gr—nde f—millede méthodes d9—pprentiss—ge semiEsupervisé ‘Q“F sl existe plusieurs f—çons de ™onstruireun gr—phe ‘IQU“ ‘IQV“ ‘IQW“F sm—ginez des noeuds de l9esp—™e reliés entre eux p—r des˜r—n™hesF ves noeuds représentent les exemples —ve™ et s—ns l—˜elsD t—ndis que les˜r—n™hes représentent les simil—rités entre exemplesF v9—lgorithme des kEplusEpro™hesEvoisins ‘TP“ ‘TT“ ‘TU“ peut être vu ™omme un ™—s p—rti™ulier des gr—phes de simil—ritéD l—
  22. 22. 2.5. CLASSIFICATION SEMI-SUPERVISÉE xxv™l—sse —ttri˜uée ™orrespond—nt à l— ™l—sse m—jorit—ire des k exemples l—˜élisés les plussimil—iresF eve™ les gr—phes de simil—ritéD s9—joute l— notion de dist—n™e entre donnéess—ns l—˜elF €—r exempleD le jeu des simil—rités f—it qu9une o˜serv—tion s—ns l—˜elD éloignéeen dist—n™e de tout exemple l—˜éliséD peut être ™onsidérée ™omme pro™he de l9un d9entreeux p—r l9intermédi—ire d9une —utre o˜serv—tion s—ns l—˜elF v9o˜je™tif est de trouverune fon™tion de ™l—ssi(™—tion pour le gr—pheF v— méthode ™onsiste en un pro˜lèmede régul—ris—tion où le premier terme de l— fon™tion de ™oût porte sur les donnéesl—˜élisées et le se™ond terme permet de lisser les solutions sur l9ensem˜le du gr—phe àl9—ide des exemples s—ns l—˜elF v— diéren™e entre les méthodes se situe sur l— formedes fon™tions de ™oûtF €—r exempleD l— fon™tion de ™oût peut s9exprimer en fon™tion del9erreur qu—dr—tique de ™l—ssi(™—tion pondérée pour une ™l—ssi(™—tion dite 4 dure 4 @nonpro˜—˜ilisteA ‘IRH“F he l— même f—çonD l— version pro˜—˜iliste exprime le ™oût en fon™tiondes ™h—mps —lé—toires q—ussiens ‘IRI“ ‘IRP“F …n p—pier propose d9utiliser l9—lgorithmede régul—ris—tion de „ikhonov ‘IRQ“F ve gr—phe peut —ussi être modélisé ™omme un™h—mp de w—rkov dis™ret ‘IRR“F sl existe ˜e—u™oup de propositions pour les modèles˜—sés sur les gr—phes de simil—ritéF v9invent—ire présent n9est p—s exh—ustif m—is donneune idée des —ppro™hes possi˜lesF xotons queD ™omme pour les modèles dis™rimin—ntsD™es modèles sont ˜in—ires et peuvent s9étendre —u ™—s multiE™l—sses en utilis—nt une—ppro™he 4 oneEversusE—ll 4F w—lgré l9élég—n™e des modèles m—thém—tiques et les ˜onnesperform—n™es de ™l—ssi(™—tionD ™e modèle possède quelques déf—utsF „out d9—˜ord ™esmodèles sont fortement dépend—nts de l— f—çon dont sont ™onstruits les gr—phsF ƒ9ilsne sont p—s ™orre™tement édi(ésD ™el— peut entr—îner de très m—uv—ises perform—n™esFin(nD ™es modèles ont le déf—ut d9être perform—nts en ™l—ssi(™—tion uniquement sur lesdonnées d9—pprentiss—ge ‘Q“D p—s sur les données de testD ™el— né™essite de ré—pprendreun ™l—ssi(eur pour ™h—que nouvelle donnéeF v— dernière gr—nde f—mille de méthodes d9—pprentiss—ge semiEsupervisé repose surl9emploi itér—tif de ™l—ssi(eursF v— version simpliste est le 4 self tr—ining 4 introduitd—ns les —nnées UH ‘IRS“ et qui est employé d—ns quelques —ppli™—tions de vision p—rordin—teurF €—r exempleD un p—pier ‘IRT“ propose de ™om˜iner un ™l—ssi(eur génér—tif@vi— l9—lgorithme iwA —ve™ un pro™essus de self tr—iningF ve prin™ipe est le suiv—ntF eune itér—tion donnéeD les exemples l—˜élisés de l9ensem˜le d9—pprentiss—ge ét—˜lissent unmodèle de ™l—ssi(™—tionF ves exemples s—ns l—˜el sont ™l—ssés à l9—ide de ™e ™l—ssi(eurD delàD les exemples s—ns l—˜el deviennent l—˜élisésF €—rmi ™es exemples fr—i™hement l—˜éliEsésD les plus pro˜—˜les —u sens de l— pro˜—˜ilité de ™l—ssi(™—tionD sont ™onsidérés ™ommedé(nitivement l—˜élisés et ils ™ontri˜ueront à l9él—˜or—tion du ™l—ssi(eur de l9itér—tionsuiv—nteF v9—lgorithme est présenté plus en dét—il d—ns l— se™tion RFQ du ™h—pitre RFves —v—nt—ges de ™ette méthode sont l— simpli™ité de l9—lgorithme et l9—ppli™—˜ilité àtout ™l—ssi(eur pro˜—˜ilisteF ves in™onvénients sont l— possi˜le prop—g—tion d9une erEreur ™ommise lors des premières itér—tions et l— di0™ulté de l9étude de l— ™onvergen™e‘IRU“ ‘IRV“ et du ™omportement de l9—lgorithmeF ve modèle génér—tif qui s9—ppuie surl9—lgorithme iw peut être vu ™omme un ™—s p—rti™ulier du self tr—ining d—ns le sensoù le modèle de ™l—ssi(™—tion évolue à ™h—que itér—tionD —u fur et à mesure que lesexemples sont ™orre™tement ™l—ssésF v— diéren™e se situe d—ns l9—ttri˜ution d9un l—E˜el à tous les exemples à ™h—que itér—tionD t—ndis que pour le self tr—iningD seuls lesexemples dont l9indi™e de ™on(—n™e de ™l—ssi(™—tion est su0s—mment élevé se voient
  23. 23. CHAPITRE 2. LES MODÈLES DE CLASSIFICATION USUELS : ÉTAT DExxvi LART—ttri˜uer une ™l—sseF v9—lgorithme itér—tif le plus ™élè˜re est le 4 ™oEtr—ining 4 ‘IRW“F€—r r—pport —u self tr—iningD le ™oEtr—ining suppose que l9esp—™e des des™ripteurs peutêtre s™indé en deux sousEesp—™es indépend—nts tels queD à ™h—que itér—tionD deux ™l—ssiE(eurs —pprennent ™h—™un un modèle de ™l—ssi(™—tion sur l— ˜—se des deux sous esp—™esFv— s™ission est ee™tuée pour réduire l— ™omplexitéD surtout si l9un des deux sousEensem˜les est fortement ˜ruitéF h9—utres versions du ™oEtr—ining proposent de s™inder—lé—toirement l9esp—™e des des™ripteurs à ™h—que itér—tion ‘ISH“F €ier™e et g—rdie ‘ISI“emploient un ™l—ssi(eur f—yésien n—ïf —ve™ un pro™essus de ™oEtr—iningF sls proposent—ussi quelques modi(™—tions ™ommeD p—r exempleD le ™hoix —lé—toire d9une ™l—sse @—usens de l— distri˜ution des ™l—sses des exemples l—˜élisésA pour l—quelle on ™her™hel9exemple le plus pro˜—˜le p—rmi les exemples fr—i™hement ™l—ssi(ésF gette propositionest dis™ut—˜le d—ns le ™—s des —r˜res de ™l—ssi(™—tion dont on s—it qu9ils f—vorisent les™l—sses m—jorit—ires @™fF l— se™tion PFPFQ du ™h—pitre PAF €our ™on™lureD les perform—n™es de toutes ™es méthodes sont liées à l— n—ture des jeuxde données @nom˜re de des™ripteursD nom˜re d9exemples l—˜élisés et nom˜re d9exempless—ns l—˜elD re™ouvrement entre ™l—ssesD org—nis—tion sp—ti—le des données F F F AF sl n9y —p—s vr—iment de méthode idé—le qui domine les —utres et une étude doit être menéeà ™h—que foisF he plusD l9—pprentiss—ge semiEsupervisé fon™tionne m—l qu—nd le jeu dedonnées est ™omplexe en terme de re™ouvrement entre ™l—sseF einsiD d—ns l— plup—rt desp—piersD les méthodes sont testées sur des jeux de données pour lesquels l— ™l—ssi(™—tionest —isée en —pprentiss—ge superviséF h—ns l— ™ommun—uté de l— ™l—ssi(™—tion de p—geswe˜ ‘PS“ ‘ISP“D on emploie les termes 4 données ™orrélées 4 pour p—rler d9—pprentiss—gesemiEsuperviséF …n p—pier ‘ISQ“ montre que les deux méthodes utilisées p—r ™ette ™omEmun—uté sont les modèles ˜—sés sur les gr—phes de simil—rité et les modèles itér—tifsFh—ns ™e même p—pierD pour un jeu de données p—rti™ulierD on montre que les gr—phessont plus perform—nts que les modèles itér—tifs si l— qu—ntité d9individus l—˜ellisés esttrès f—i˜leF2.6 Conclusion h—ns ™et ét—t de l9—rtD nous —vons présenté les qu—tre types d9—pprentiss—ge ™ouEr—mment utilisés X l9—pprentiss—ge superviséD l9—pprentiss—ge non superviséD l9—pprentisEs—ge f—i˜lement supervisé et l9—pprentiss—ge semiEsupervisé qui se dé™linent en gr—ndesf—milles de modèles @génér—tifsD dis™rimin—ntsD hy˜ridesAF ve ˜ut ét—nt d9étoer les™onn—iss—n™es et de se situer méthodologiquementD les méthodes —sso™iées à ™h—™un de™es —pprentiss—ges ont été présentées su™™in™tement et nous —vons exposé les prin™ip—lesdiéren™esF ve ™h—pitre Q est plus formel qu—nt à l— ™ompréhension des méthodes et —ux déEveloppements m—thém—tiquesF xous —llons ™hoisir trois modèles de ˜—se @un génér—tifDun dis™rimin—nt et un hy˜rideA que nous dé™linerons sous leurs formes supervisées etf—i˜lement superviséesF
  24. 24. CHAPITRE 3 Classication faiblement supervisée : modèles proposés3.1 Introduction3.1.1 Généralités v9o˜je™tif de ™e ™h—pitre est de déterminer quelle méthode usuelle répond —u mieuxen —pprentiss—ge f—i˜lement supervisé et de ™omprendre le fon™tionnement propre à™h—™une de ™es méthodesF xous ™hoisissons don™ volont—irement un l—rge spe™tre deméthodes @d—ns le sens où les —ppro™hes méthodologiques se distinguent fortementAFxous —vons ™hoisi un modèle génér—tifD un modèle dis™rimin—nt et un modèle hy˜rideque nous dé™linons sous leur forme ™onnue d9—pprentiss—ge superviséD puis sous uneforme d9—pprentiss—ge f—i˜lement superviséF ves deux types d9—pprentiss—ge sont préEsentés ™onjointement de m—nière à ˜ien ™omprendre les fondements des méthodes etles liens étroits exist—nt entre l9—pprentiss—ge supervisé et l9—pprentiss—ge f—i˜lementsuperviséF ve ™—s de l9—pprentiss—ge f—i˜lement supervisé ™onsidéré d—ns ™e ™h—pitre est diéErent de ™elui ren™ontré h—˜ituellement d—ns l— littér—tureF gontr—irement —ux donnéesd9—pprentiss—ge dont l9inform—tion sur les ™l—sses est donnée p—r des ve™teurs ˜in—iresqui indiquent quelles sont les ™l—sses possi˜lesD nous nous pl—çons d—ns le ™—s génér—ld9un ve™teur qui donne les pro˜—˜ilités de ™l—ssi(™—tion — priori pour ™h—que ™l—sseF€lus génér—lement en™oreD nous ™onsidérons un ensem˜le d9im—ges ou de do™uments™onten—nt des o˜jetsD telles que les distri˜utions — priori des ™l—sses sont ™onnues d—nsles im—ges ou les do™umentsF ev—nt de présenter les modèles de ™l—ssi(™—tion d—ns les se™tions QFP QFQ QFRD lesnot—tions seront introduitesF ves perform—n™es de ™l—ssi(™—tion de ™es modèles serontprésentées d—ns le ™h—pitre S pour plusieurs jeux de données du dom—ine pu˜li™F
  25. 25. CHAPITRE 3. CLASSIFICATION FAIBLEMENT SUPERVISÉE :xxviii MODÈLES PROPOSÉS3.1.2 Notations in ™l—ssi(™—tion superviséeD l9ensem˜le d9—pprentiss—ge est noté {xn , yn }1≤n≤N D oùxn représente l9o˜serv—tion d—ns l9esp—™e des des™ripteursD t—ndis que yn = i indiqueque xn est de l— ™l—sse iF h—ns le ™—s des ™l—ssi(eurs ˜in—ires @™l—ssi(™—tion à deux™l—ssesAD yn peut prendre les v—leurs +1 ou −1F in ™l—ssi(™—tion f—i˜lement superviséeD K indique le nom˜re d9im—ges d9—pprentisEs—geF v9im—ge d9—pprentiss—ge indi™ée p—r k ™ontient N (k) o˜jets dé™rits d—ns l9esp—™edes des™ripteurs p—r {xkn }1≤k≤K,1≤n≤N (k) F gh—que im—ge d9—pprentiss—ge est —sso™iée àun ve™teur l—˜el πk F ves ™ompos—ntes πki du ve™teur l—˜el donnent l— proportion de l—™l—sse i d—ns l9im—ge k F ges proportions peuvent être vues ™omme l9— priori de l— ™l—ssei d—ns l9im—ge k telle que πki = p (ykn = i)D ∀nF xous notons ykn = i si l9o˜jet xkn est—sso™ié à l— ™l—sse iF xotons que i πki = 1F v9étiquette glo˜—le de l9im—ge est r—menéeà l9é™helle de l9o˜jetD donn—nt un l—˜el individuel — prioriF v9ensem˜le d9—pprentiss—gepeut don™ s9é™rire X {xkn , πk }1≤k≤K,1≤n≤N (k) F v9o˜je™tif des méthodes est d9ét—˜lir un modèle de ™l—ssi(™—tion des o˜jets à p—rtirdu jeu de données d9—pprentiss—geF ƒi Θ sont les p—r—mètres du modèleD —lors nous ˆév—luons Θ d—ns un premier tempsD puis l— pro˜—˜ilité de ™l—ssi(™—tion p y = i|x, Θ ˆét—nt donné l9exemple test xF3.2 Modèle génératif3.2.1 Introduction h—ns le ™h—pitre QFPD nous étudions un modèle génér—tif ˜—sé sur l9—lgorithme iwFv— méthode ™onsiste à ™onsidérer que les données sont ™onstituées de modes g—ussiensdont nous ™her™hons à év—luer les moments d9ordre I et PF „out d9—˜ordD d—ns l— se™tion QFPFPD nous présentons l— méthode sous s— forme l—plus ™onnue X d—ns le ™—s de l9—pprentiss—ge superviséF €uisD d—ns l— se™tion QFPFQD l—pro™édure est étendue —u ™—s de l9—pprentiss—ge f—i˜lement superviséF3.2.2 Classication supervisée in guise de modèle génér—tifD nous étudions les mél—nges de q—ussiennes dont lesp—r—mètres sont estimés à l9—ide de l9—lgorithme iw qui m—ximise l— vr—isem˜l—n™e à™h—que itér—tionF yn se pl—™e d—ns le ™—s de N ré—lis—tions {x1 , . . . , xN } d9une v—ri—˜le—lé—toire X dont l— densité est un mél—nge de g—ussiennesF gel— suppose que nous™onsidérons les données d9une ™l—sse rép—rties de m—nière mod—leD ™h—que mode ét—ntmodélisé p—r une g—ussienneF v9o˜je™tif de l9—pprentiss—ge est d9estimer les p—r—mètresde ™h—™une des g—ussiennesF ƒoit l— v—ri—˜le —lé—toire S telle que snim = 1 si l— ré—lis—tion xn provient dumode m de l— ™l—sse iD et snim = 0 sinonF xous en déduisons que ρim = p (sim )D —ve™ M m=1 ρim = 1F
  26. 26. 3.2. MODÈLE GÉNÉRATIF xxix ƒoit Θ = {ρim , µim , Σim }i,m les p—r—mètres d9un modèle de mél—nge g—ussienD où Mest le nom˜re de modes p—r ™l—sseD ρim est l— proportion du mode m de l— ™l—sse iD µimest l— moyenne du mode m de l— ™l—sse i et Σim est l— m—tri™e de ™ov—ri—n™e du modem de l— ™l—sse iF v— fon™tion densité s9é™rit X M p (x|y = i, Θ) = ρim N (x|µim , Σim ) @QFIA m=1 X est une o˜serv—tion in™omplète que l9on peut ™ompléter p—r l— v—ri—˜le ™—™héeS F einsi f—itD le ™ritère du m—ximum de vr—isem˜l—n™e — posteriori peut être employéFgepend—ntD l— m—ximis—tion de l— logEvr—isem˜l—n™e ™omplétée est di0™ileF v9—stu™ede l9—lgorithme iw est de ™ontourner ™e ™—l™ul vi— l— m—ximis—tion de l9espér—n™e™onditionnelle de l— logEvr—isem˜l—n™e ™omplétée p—r r—pport à ΘF in not—nt Θc lesp—r—mètres ™our—nts o˜tenus soit p—r ™—l™ulD soit p—r initi—lis—tionD l9estimé des p—r—Emètres à l9itér—tion suiv—nte s9é™rit don™ X ˆ Θ = arg max {Q(Θ, Θc )} @QFPA Θoù Q(Θ, Θc ) = E [log p (x, s|Θ) |x, Θc ] = p(s|x, Θc ) log p(x, s, Θ) @QFQA sF yrD en suppos—nt les o˜serv—tions {xn } indépend—ntesD nous pouvons é™rire X  N N   log p(x, s, Θ) = log   p(xn , sn , Θ) = log [N (x|µ, Σ)p(sn )]  N n=1 n=1 . @QFRA  c  p(s|x, Θc ) =   p(sn |xn , Θ )  n=1pin—lementD en su˜stitu—nt les éléments de l9équ—tion @QFQA et en se fo™—lis—nt sur l—™l—sse iD nous o˜tenons l9expression suiv—nte X N M c Q(Θ, Θ ) = log [ρim N (x|µim , Σim )] p(snim |xn , Θc ) @QFSA n=1 m=1xous voulons m—ximiser Q(Θ, Θc ) p—r r—pport à ΘF einsiD en ™onsidér—nt Θc ™ommeun p—r—mètre ™onst—ntD et ™omme prélimin—ire à l— m—ximis—tion nous ™—l™ulonsp(snim |xn , Θc ) d—ns une première ét—peF v— règle d9inversion de f—yes donne X ρim p (xn |snim , Θc ) p(snim |xn , Θc ) = M @QFTA ρil p (xn |snil , Θc ) l=1 €our trouver le p—r—mètre ρim qui m—ximise Q(Θ, Θc )D nous utilisons les multipliE™—teurs de v—gr—nge —ve™ l— ™ontr—inte M ρim = 1F xous o˜tenons X m=1 N 1 ρim = p(snim |xn , Θc ) @QFUA N n=1
  27. 27. CHAPITRE 3. CLASSIFICATION FAIBLEMENT SUPERVISÉE :xxx MODÈLES PROPOSÉSves moyennes et v—ri—n™es sont o˜tenues p—r dériv—tion X N p (snim |xn , Θc ) xn n=1 µim = N @QFVA c p (snim |xn , Θ ) n=1 N p (snim |xn , Θc ) (xn − µim ) (xn − µim )T n=1 Σim = N @QFWA p (snim |xn , Θc ) n=1€uis les p—r—mètres ™our—nts sont estimés à nouve—uD et le pro™essus est itéré jusqu9à™onvergen™eF v9—lgorithme est résumé d—ns le t—˜le—u QFIF vors de l— ph—se de testD l— pro˜—˜ilité pour qu9un individu quel™onque x soit de l—™l—sse i est donnée p—r l— pro˜—˜ilité de ™l—ssi(™—tion — posteriori X M p(y = i|x, Θ) = ρim N (x|µim , Σim ) @QFIHA m=1 sl existe une version sto™h—stique de ™et —lgorithmeF v9—lgorithme ƒiw ‘IU“ — pouro˜je™tif d9éviter d9—˜outir à un m—ximum lo™—l de vr—isem˜l—n™eF €our ™el—D entre lesét—pes i et wD les individus sont ™l—ssés p—r r—pport —ux diérents modes à l9—ide d9untir—ge —lé—toire suiv—nt l— densité de pro˜—˜ilité dis™rète {p(snim |xn )}i F3.2.3 Classication faiblement supervisée €our le ™—s de l9—pprentiss—ge f—i˜lement superviséD nous nous sommes —ppuyés surles tr—v—ux développés d—ns ‘ISR“F ge p—pier propose de résoudre l9—lgorithme iw pourdes données f—i˜lement l—˜elliséesF ge dernier tr—ite uniquement le ™—s d9o˜serv—tiondont le l—˜el indique l— présen™e ou l9—˜sen™e de ™l—sses d—ns un groupe d9o˜jetsF xous—vons —d—pté l9—lgorithme —u ™—s des l—˜els qui indiquent l— proportion des ™l—sses d—nsun groupe d9o˜jetsF ƒoit Θ = {ρim , µim , Σim }i,m les p—r—mètres d9un modèle de mél—nge de g—ussiennes X M p (x|y = i, Θ) = ρim N (x|µim , Σim ) @QFIIA m=1€our un ensem˜le d9—pprentiss—ge de l— forme {xkn , πk } qui est l—˜ellisé en proportionDle ™ritère de m—ximis—tion de l— vr—isem˜l—n™e peut être dé(nit p—r X K N (k) ˆ Θ = arg max p(π|x, Θ) = arg max p(πk |xkn , Θ) @QFIPA Θ Θ k=1 n=1

×