Egc05 atelier rnti-e-5_(extraits)

Revue des Nouvelles Technologies de l’Information
Sous la direction de Djamel A. Zighed et Gilles Venturini
RNTI-E-5

Extraction des connaissances :
Etat et perspectives
Rédacteurs invités :
Florence Cloppet
(Laboratoire CRIP5-SIP, Université René Descartes, Paris)
Jean-Marc Petit
(Laboratoire LIMOS, Université Blaise Pascal, Clermont-Fd)
Nicole Vincent
(Laboratoire CRIP5-SIP, Université René Descartes, Paris)

CÉPADUÈS-ÉDITIONS
111, rue Vauquelin
31100 TOULOUSE – France
Tél. : 05 61 40 57 36 – Fax : 05 61 41 79 89

(de l’étranger ) + 33 5 61 40 57 36 – Fax : + 33 5 61 41 79 89

www.cepadues.com
courriel : cepadues@cepadues.com

Chez le même éditeur
RNTI-Revue des Nouvelles Technologies de l'Information
Sous la direction de Djamel A. Zighed et Gilles Venturini

n°1 : Entreposage fouille de données
E1 : Mesures de qualité pour la fouille de données
E2 : Extraction et gestion des connaissances EGC 2004
C1 : Classification et fouille de données
E3 : Extraction et gestion des connaissances EGC 2005
B1 : 1re Journée Francophone sur les Entrepôts de Données
et l’Analyse en ligne EDA 2005
E4 : Fouille de données complexes

ISBN : 2.85428.707.X

© CEPAD 2005

Le code de la propriété intellectuelle du 1 juillet 1992 interdit expressément la photocopie
à usage collectif sans autorisation des ayants droit. Or, cette pratique en se généralisant
provoquerait une baisse brutale des achats de livres, au point que la possibilité même pour les
auteurs de créer des œuvres nouvelles et de les faire éditer correctement serait alors menacée.
er

Nous rappelons donc que toute reproduction, partielle ou totale, du présent ouvrage est
interdite sans autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie
(CFC – 3, rue d'Hautefeuille – 75006 Paris).

Dépôt légal : novembre 2005

N° éditeur : 707

LE MOT DES DIRECTEURS DE LA COLLECTION RNTI

Nous avons le plaisir de vous présenter ce nouveau numéro de la Revue des Nouvelles
Technologies de l'Information qui va vous faire connaître le fruit des ateliers de la
conférence EGC’2005. De nombreux travaux de grande qualité présentés lors de ces
ateliers méritaient d’avoir leur place dans RNTI, et c’est maintenant chose faite grâce
au travail des rédacteurs invités et au soutien de l’association EGC.
A l'image de ce numéro, nous vous rappelons que les thématiques générales couvertes
par RNTI concernent tous les domaines liés à l'Extraction de connaissances à partir des
Données (ECD), la Fouille de données (FD), la Gestion des connaissances (GC). Afin
de mieux distinguer les différentes thématiques de RNTI, nous avons défini les
appellations spécifiques suivantes :
§
§
§
§
§
§

RNTI - A : Apprentissage
RNTI - B : Bases de données
RNTI - C : Classification
RNTI - E : Extraction et Gestion des Connaissances
RNTI - S : Statistiques
RNTI - W : Web

RNTI a pour objectif d'être un outil de communication de très grande qualité et ouvert à
tous. Nous vous rappelons également que deux types de numéros sont publiés dans
RNTI :
§ des actes de conférences sélectives garantissant une haute qualité des articles
(par exemple, nous demandons à ce que trois relecteurs émettent un avis sur
les articles soumis),
§ des numéros à thème faisant l'objet d'un appel à communication. Chaque
numéro à thème est édité par un ou plusieurs rédacteurs en chef invités. Un
comité de programme spécifique d'une quinzaine de personnes est formé à
cette occasion.
Nous sommes à votre écoute pour toute proposition de numéros spéciaux. Les
thématiques abordées sont susceptibles également à moyen terme d'être élargies à
d'autres domaines connexes.
Nous espérons vivement que ce numéro vous donnera à tous une entière satisfaction.
Pour tout renseignement, nous vous invitons à consulter notre site Web et à nous
contacter.

Djamel A. Zighed et Gilles
http://www.antsearch.univ-tours.fr/rnti

iii

Venturini.

PREFACE

Les journées francophones EGC’2005 se sont tenues à Paris du 18 au 21 janvier et
ont remporté un grand succès. La journée du 18 janvier était consacrée aux ateliers et
aux cours. Une partie importante du succès de la conférence EGC a résidé dans la
grande attractivité des ateliers qui ont réuni plus de 200 personnes sur des sujets très
variés dont le point commun était l’extraction et la gestion des connaissances. En outre,
ces rencontres ont permis des échanges fructueux, voire ont favorisé l’émergence de
nouvelles problématiques.
Dans ce contexte, il a donc semblé tout à fait opportun à l’association EGC de valoriser
le travail des organisateurs des douze ateliers et les articles des participants qui ont
contribué au succès de ces ateliers. Le présent ouvrage est le fruit de ces réflexions. Il a
été constitué à partir des actes informels qui ont été distribués le jour des ateliers.
L’intérêt de l’ouvrage réside en partie dans la réactivité que nous avons eue pour
assurer sa publication. Chaque atelier est représenté par un chapitre dans l’ouvrage, les
responsables d’ateliers rédigeant une introduction à chaque chapitre. De manière à
assurer la meilleure qualité possible de l’ouvrage, un processus de relecture a été
entrepris et une évaluation globale des différents papiers a été proposée par chaque
responsable d’ateliers aux éditeurs de l’ouvrage. Il va de soi qu’il ne s’agissait pas
d’accepter de nouveaux papiers, plutôt d’amener les auteurs à consolider leur article à
la lumière des discussions qui ont pu intervenir pendant l’atelier.
Que soient ici remerciés chaleureusement pour leur travail et leur coopération les
organisateurs des ateliers ainsi que les membres des comités de lecture impliqués dans
l’ouvrage. Enfin, la réalisation de cet ouvrage n’aurait pas été possible sans le très fort
soutien de l’association EGC. A titre d’exemple, cet ouvrage a été distribué
gratuitement aux participants des ateliers, aux frais de l’association EGC.

Florence Cloppet (Université René Descartes, Paris)
Jean-Marc Petit (Université Blaise Pascal, Clermont-Fd)
Nicole Vincent (Université René Descartes, Paris)

v

TABLE DES MATIÈRES

Table des matières
Partie I : Modélisation ...................................................................................................1
Chapitre 1 : Modélisation des connaissances ...............................................................3
Une nouvelle méthode graphique pour interroger et vérifier des diagrammes de
classes UML
Thomas Raimbault............................................................................................................7
Transformation des concepts du diagramme de classe UML en OWL full
Macaire Ahlonsou, Emmanuel Blanchard, Henri Briand, Fabrice Guillet ....................13
Modéliser des connaissances ontologiques dans le cadre du modèle des Graphes
Conceptuels
Frédéric Fürst ................................................................................................................19
Cartes cognitives de graphes conceptuels
David Genest, Stéphane Loiseau ....................................................................................25
Modélisation des connaissances émotionnelles par les cartes cognitives floues
Nathalie Ronarc’h, Gaële Rozec, Fabrice Guillet, Alexis Nédélec, Serge
Baquedano, Vincent Philippé .........................................................................................31
Logique Floue appliquée à l’inférence du « Risque Inhérent » en audit financier
Souhir Fendri-Kharrat, Hassouna Fedhila, Pierre-Yves Glorennec..............................37
Méthode sémantique pour la classification et l’interrogation de sources de données
biologiques
Nizar Messai, Marie-Dominique Devignes, Amedeo Napoli, Malika SmaïlTabbone ..........................................................................................................................43

Chapitre 2 : Modèles graphiques probabilistes pour la modélisation des
connaissances : inférence, apprentissage et applications ..........................................49
Modèles de Markov cachés pour l’estimation de plusieurs fréquences
fondamentales
Francis Bach, Michael I. Jordan....................................................................................53
Inférence dans les HMM hiérarchiques et factorisés : changement de
représentation vers le formalisme des Réseaux Bayésiens.
Sylvain Gelly, Nicolas Bredeche, Michèle Sebag ...........................................................57

vii

Représentation et reconnaissance de caractères manuscrits par Réseaux Bayésiens
Dynamiques
Laurence Likforman-Sulem, Marc Sigelle ......................................................................61
Les Réseaux Bayésiens versus d’autres modèles probabilistes pour le diagnostic
multiple de gros systèmes
Véronique Delcroix, Mohamed-Amine Maalej, Sylvain Piechowiak..............................65
Réseaux bayésiens pour le filtrage d’alarmes dans les systèmes de détection
d’intrusions
Ahmad Faour, Philippe Leray, Cédric Foll....................................................................69
Causal Inference in Multi-Agent Causal Models
Sam Maes, Stijn Meganck, Bernard Manderick .............................................................73
Réseaux Bayésiens de Niveau Deux et D-Séparation
Linda Smail, Jean-Pierre Raoult ....................................................................................77

Chapitre 3 : Modélisation d’utilisateurs et Personnalisation de l’Interaction
Homme-Machine ..........................................................................................................81
Représentation contextualisée des pratiques des utilisateurs
Patrick Brézillon, Charles Tijus .....................................................................................83
Modélisation Sémantique de l’Utilisateur
Charles Tijus, Sébastien Poitrenaud, Jean-François Richard .......................................89
Une plate-forme de personnalisation basée sur une architecture multi-agents
Abdouroihamane Anli, Emmanuelle Grislin-Le Strugeon, Mourad Abed ......................95
Réflexions sur l'apport de l'exploration des traces d'usage pour améliorer le tri des
résultats des moteurs de recherche sur le Web
Rushed Kanawati..........................................................................................................101
Services contextualisés pour utilisateurs et la modélisation des utilisateurs à base
d’ontologies : défis et perspectives
Liana Razmerita ...........................................................................................................107
De l’importance du pré-traitement des données pour l’utilisation de l’inférence
grammaticale en Web Usage Mining
Thierry Murge ..............................................................................................................113
Mesure d’audience sur Internet par populations de fourmis artificielles
Nicolas Labroche..........................................................................................................119

viii

Apprentissage d’une hiérarchie de concepts pou la conception de modèles de
domaine d’hypermédias
Hermine Njike Fotzo, Thierry Artières, Patrick Gallinari, Julien Blanchard,
Guillaume Letellier.......................................................................................................125

Partie II : Extraction de connaissance et Web ........................................................131
Chapitre 4 : Métadonnées et Adaptabilité pour les Systèmes d’Information
sur le Web....................................................................................................................133
Interface adaptable de requêtes pour un service de Métadonnées
Julien Barde, Jacques Divol, Thérèse Libourel, Pierre Maurel ...................................135
Gestion de connaissances et de données dans l'aide à la conception de Tissue
Microarrays
Julie Bourbeillon, Catherine Garbay, Françoise Giroud.............................................141
Un modèle d'adaptation pour les œuvres médiatiques
Anis Ouali, Brigitte Kerhervé, Odile Marcotte, Paul Landon ......................................147
Adaptabilité à l’utilisateur dans le contexte des services Web
Céline Lopez-Velasco, Marlène Villanova-Oliver, Jérôme Gensel, Hervé Martin.......153
Génération de descripteurs : interrogation d’images satellitaires par les
métadonnées
Florence Sèdes..............................................................................................................159

Chapitre 5 : Extraction et Gestion de Connaissance dans les Environnements
Informatiques pour l’Apprentissage Humain ..........................................................165
Extraction d'Information Pédagogique à l'aide de Fouilles de Données : une étude
de cas
Agathe Merceron ..........................................................................................................167
Un Web sémantique de formation par questionnement
Sylvain Dehors, Catherine Faron-Zucker, Alain Giboin, Jean-Paul Stromboni ..........173
Extraction de pépites de connaissances dans des réponses d’élèves en langage
naturel
Sylvie Normand-Assadi, Lalina Coulange, Elisabeth Delozanne, Brigitte Grugeon....179
Un cadre pour l’étude des comportements sur une plate-forme pédagogique : du
parcours individuel à la conscience du groupe
Pierre Camps, Marie-Françoise Canut, André Péninou, Florence Sèdes....................185

ix

Chapitre 6 : De la construction d’entrepôts de données à l’extraction de
connaissances sur grilles ............................................................................................191
Entrepôts de données sur grilles de calcul
Pascal Wehrle, Maryvonne Miquel, Anne Tchounikine................................................195
Service de Cache pour les Grilles de Calcul
Yonny Cardenas, Jean-Marc Pierson, Lionel Brunie...................................................199
Sélection d’attributs en fouille de données sur grilles
Sébastien Cahon, Nouredine Melab et El-Ghazali Talbi..............................................203

Chapitre 7 : Extraction de motifs temporels pour la détection en ligne de
situations critiques......................................................................................................209
Apprentissage relationnel de motifs temporels
Marie-Odile Cordier, René Quiniou.............................................................................211
Extraction non supervisée de motifs temporels, multidimensionnels et hétérogènes
Application à la télésurveillance médicale à domicile
Florence Duchêne, Catherine Garbay, Vincent Rialle.................................................217
Améliorer la découverte de chroniques par une découpe intelligente d'un log
d'alarmes
Françoise Fessant, Christophe Dousson, Fabrice Clérot ............................................223
Extraction de motifs temporels pour la détection dynamique de conflits ethnopolitiques
Laure Mouillet, Bernadette Bouchon-Meunier, Emmanuel Collain.............................229
Vers une analyse de la dynamique des paramètres physiologiques en Unité de
Soins Intensifs
Samir Sharshar, Marie-Christine Chambrin ................................................................235

Partie III : Données complexes .................................................................................243
Chapitre 8 : Fouille de données complexes...............................................................245
Extraction d’indices spatiaux et temporels dans des séquences vidéo couleur
Sébastien Lefèvre, Nicole Vincent ................................................................................249
Fusion de classifieurs pour la classification d’images sonar
Arnaud Martin ..............................................................................................................259
Fouille de collections de documents en vue d’une caractérisation thématique de
connaissances textuelles
Abdenour Mokrane, Gérard Dray, Pascal Poncelet ....................................................269

x

Recherche d’information multimédia : Apport de la fouille de données et des
ontologies
Marie-Aude Aufaure , Marinette Bouet ........................................................................279
Complexité de l’extraction des connaissances de données : une vision systémique
Walid Ben Ahmed, Mounib Mekhilef, Michel Bigand, Yves Page ................................289
Une représentation des arborescences pour la recherche de sous-structures
fréquentes
Federico Del Razo Lopez, Anne Laurent, Maguelonne Teisseire.................................299
Classement d'objets incomplets dans un arbre de décision probabiliste
Lamis Hawarah, Ana Simonet , Michel Simonet ..........................................................309
Fouille de données du génome à l'aide de modèles de Markov cachés
Sébastien Hergalant, Bertrand Aigle, Pierre Leblond, Jean-François Mari................319
Exploration visuelle d'images IRMf basée sur des Gaz Neuronaux Croissants
Jerzy Korczak, Jean Hommet, Nicolas Lachiche, Christian Scheiber..........................329
Mise en évidence d'invariants dans une population de cas chirurgicaux
Mélanie Raimbault, Ricco Rakotomalala, Xavier Morandi, Pierre Jannin..................339

Chapitre 9 : Extraction de Connaissance à partir d’images ...................................349
Apprentissage Automatique de Catégories d'Objets Cartographiques par signature
structurelle
Güray Erus, Nicolas Loménie.......................................................................................351
Application des courbes de Peano en recherche d'image par le contenu
Adel Hafiane, Bertrand Zavidovique............................................................................355
Recherche d’image par le contenu : requête partielle ou globale, apprentissage en
ligne
Sylvie Philipp-Foliguet .................................................................................................359
Extraction de connaissances pour la description d’images satellitaires à très haute
résolution spatiale
Erick Lopez-Ornelas, Florence Sèdes ..........................................................................365

Chapitre 10 : Qualité des Données et des Connaissances........................................371
Data Freshness Evaluation in Different Application Scenarios
Veronika Peralta, Mokrane Bouzeghoub......................................................................373
Nettoyage des données XML : combien ça coûte ?
Laure Berti-Equille.......................................................................................................379

xi

Extraction de Règles en Incertain par la Méthode Implicative
Régis Gras, Raphaël Couturier, Fabrice Guillet, Filippo Spagnolo ............................385
IPEE : Indice Probabiliste d'Ecart à l'Equilibre pour l'évaluation de la qualité des
règles
Julien Blanchard, Fabrice Guillet, Henri Briand, Régis Gras .....................................391
Le rôle de l'utilisateur dans un processus d'extraction de règles d'association
Cyril Nortet, Ansaf Salleb, Teddy Turmeaux, Christel Vrain .......................................397
Arbre BIC optimal et taux d’erreur
Gilbert Ritschard ..........................................................................................................403
Validation d’une expertise textuelle par une méthode de classification basée sur
l’intensité d’implication
Jérôme David, Fabrice Guillet, Vincent Philippé, Henri Briand, Régis Gras .............409
ARQAT : plateforme exploratoire pour la qualité des règles d'association
Xuan-Hiep Huynh, Fabrice Guillet, Henri Briand .......................................................415
Mesurer l’intérêt des règles d’association
Benoît Vaillant, Patrick Meyer, Elie Prudhomme, Stéphane Lallich, Philippe
Lenca, Sébastien Bigaret ..............................................................................................421

xii

Partie I
_

Modélisation

-1-

RNTI-E-5

Chapitre 1

Modélisation des connaissances

Ã

La conférence EGC rassemble depuis plusieurs années des chercheurs et industriels autour de
la double thématique de l'extraction et de la gestion des connaissances. Tous les acteurs de cette
communauté sont confrontés au problème de la modélisation des connaissances. Différentes
méthodes, formalismes et outils ont été proposés et mis en oeuvre pour modéliser, stocker et
utiliser les informations au sein des bases de données ou des bases de connaissances. L'atelier
modélisation des connaissances qui a eu lieu en parallèle avec les journées EGC 2005 a réuni une
quarantaine de personnes autour d'exposés sélectionnés avec édition d'actes. Les papiers ont été
retravaillés pour l'édition que nous vous proposons dans cet ouvrage.
Actuellement, les recherches qui intéressent la communauté extraction et gestion des
connaissances visent à exploiter les nombreuses données disponibles au sein des organisations, à
en extraire des connaissances intéressantes et exploitables, à intégrer ces connaissances aux
systèmes décisionnels, ou à les diffuser aux différents agents de l'organisation. La modélisation
des connaissances est un sujet majeur pour ces différentes problématiques. Les articles présentés
peuvent être regroupés en trois thèmes: transformation de modèles, apports fondamentaux,
applications.
Tout d'abord un rapprochement s'effectue entre les travaux d'intelligence artificielle et les
travaux des communautés de modélisation des données. Les problématiques de transformation de
modèles sont ainsi de plus en plus prégnantes dans les diverses communautés. L'article de T.
Raimbault présente ainsi comment les diagrammes UML peuvent être utilisés comme support à
de la représentation visuelle de connaissances dans le cadre du modèle des graphes conceptuels ;
des vérifications inédites de construction de ces modèles sont proposées. L'article de M.

Responsables du chapitre : B. Duval, S. Loiseau, H. Briand

-3-

RNTI-E-5

Ahlonsou et al. présente lui les transcriptions possibles entre un diagramme de classe UML et le
langage OWL qui est utilisé dans les travaux de WEB sémantique.
Ensuite, les travaux fondamentaux qui proposent de nouveaux langages ou modèles de
représentation sont illustrés par deux contributions. Le travail de F. Fürst propose un cadre
formel et complet pour contraindre les ontologies ; celles-ci sont à la base de nombreux travaux
de modélisation en fournissant de manière organisée le vocabulaire de base d'un domaine étudié.
L'article de D. Genest et al. propose quant à lui un modèle de connaissance qui fusionne les
modèles d'influence traditionnels avec le modèle des graphes conceptuels qui contient lui-même
une couche ontologique.
Enfin, les travaux de recherche appliqués à un domaine particulier sont évidemment présents.
Les applications ne sont pas simplement des illustrations ou validations des recherches menées
en modélisation des connaissances, elles sont un point d'entrée pour comprendre et modéliser les
connaissances mises en jeu dans les processus intelligents. Le travail de N. Ronarc'h et al. est
issu des besoins applicatifs de modélisation du comportement psychologique. Il propose d'utiliser
les modèles de cartes cognitives pour capturer et formaliser les connaissances émotionnelles des
personnes. Les recherches de S. Fendri et al. sont consacrées à une tâche de modélisation et de
capitalisation des connaissances humaines dans le domaine de l'audit financier. Afin de dépasser
les limites des modèles couramment proposés, le processus d'estimation du risque d'audit est
modélisé à l'aide d'arbres de décision flous permettant d'expliciter les facteurs pertinents mis en
jeu. L'article de N. Messai s'intéresse à l'intégration de plusieurs sources de données biologiques
lors d'une recherche. Le travail utilise des méta-données associées aux sources et le concept de
treillis de Galois pour classer ces sources en fonction de leur intérêt pour les requêtes. Des
ontologies sont associées aux treillis de Galois afin de permettre l'enrichissement de requêtes.
Plusieurs tendances peuvent être dégagées des travaux actuels. La modélisation des
connaissances, en tant que processus intermédiaire entre l'analyse et l'exploitation, fait de plus
en plus appel à des langages visuels de représentation. Les modèles de cartes cognitives, de
graphes conceptuels, de diagrammes de classes sont ainsi à la base de nombreux travaux. La
complexité des connaissances à modéliser nécessite des approches issues des travaux
formalisant les informations "imparfaites" comme le fait la logique floue. Une des difficultés
croissante, due en particulier au développement de l'internet, est l'hétérogénéité des sources de
connaissances ; les problèmes de fusion et d'incohérence nécessitent des travaux nouveaux. Un
point important que nous pouvons noter dans les différents articles proposés est que les travaux
de recherche menés sont de plus en plus pluridisciplinaires : les travaux de génie logiciel
(UML), de logique (logique floue), d'aide à la décision (cartes cognitives), de modèles de
données (XML) côtoient les travaux de modélisation traditionnels (graphes conceptuels).

Comité de programme et d'organisation :
Béatrice Duval (LERIA, Université d'Angers )
Stéphane Loiseau (LERIA, Université d'Angers )
Henri Briand (LINA, Ecole Polytechnique de l'université de Nantes )

RNTI-E-5

-4-

Salem Benferhat (CRIL, Université d'Artois)
Giuseppe Berio (Université de Turin, Italie)
Corine Cauvet (LSIS, Université de Marseille )
Nadine Cullot (LE2I, Université de Bourgogne)
Jérôme Euzenat (INRIA Rhône Alpes)
David Genest (LERIA, Université d'Angers)
Fabrice Guillet (LINA, , Ecole Polytechnique de l'université de Nantes)
Mohan Said Hacid (LIRID, Université Lyon1)
Rémi Lehn (LINA, Université de Nantes)
Chantal Reynaud (LRI, Université de Paris Sud)

-5-

RNTI-E-5

Une nouvelle m´thode graphique pour interroger
e
et v´rifier des diagrammes de classes UML
e
Thomas Raimbault
LERIA, Universit´ d’Angers, 2 boulevard Lavoisier 49045 ANGERS Cedex 01
e
thomas.raimbault@info.univ-angers.fr
R´sum´. UML est le langage graphique de r´f´rence dans l’industrie
e
e
ee
pour la mod´lisation objet. Cependant UML reste un langage, et ne foure
nit aucun moyen de v´rification ou d’interrogation de ses sch´mas. Il existe
e
e
aujourd’hui des outils de v´rification, mais ils se comportent comme des
e
boˆ noires o` l’utilisateur ne peut acc´der. Nous proposons une m´thode
ıtes
u
e
e
graphique de v´rification et d’interrogation de diagrammes de classes
e
UML. L’aspect intuitif et dessinable de notre m´thode offre ` l’utilisae
a
teur la possibilit´ d’interroger le contenu de diagrammes de classes, ainsi
e
que de d´finir et d’adapter ses propres crit`res de v´rification. Le mod`le
e
e
e
e
calculatoire de notre approche est celui des graphes conceptuels.

1

Introduction

UML, Unified Modeling Language (Booch et al. 1998), est le langage graphique de
r´f´rence dans l’industrie pour la mod´lisation objet. Cependant UML reste un langage,
ee
e
et ne fournit aucun moyen de v´rification ou d’interrogation de ses sch´mas. Il existe
e
e
des outils commerciaux de v´rification, tels que Rational Software Rose (IBM 2004)
e
ou Borland Together (Borland 2004). Mais les v´rifications proposés sont uniquement
e
e
standards, v´rifiant la coh´rence des diagrammes par rapport aux spćifications objet.
e
e
e
De plus, la m´thode de v´rification est dans une boˆ noire : les traitements sont de
e
e
ıte
bas niveau et non accessibles ` l’utilisateur. Enfin, l’interrogation de diagrammes n’est
a
pas totalement libre mais limit´ ` un cadre pr´-format´ de questions.
ea
e
e
Pour r´pondre aux exigences de qualit´ et d’interaction en mod´lisation, nous propoe
e
e
sons une m´thode graphique d’interrogation et de v´rification de diagrammes de classes
e
e
UML. L’aspect intuitif et dessinable de cette m´thode offre ` l’utilisateur la possibilit´
e
a
e
de d´finir et d’adapter ses propres crit`res de v´rification, ainsi que d’interroger libree
e
e
ment le contenu de diagrammes de classes UML. Le travail pr´sent´ dans cet article
e
e
est issu de (Raimbault 2004), et est trait´ pour l’atelier EGC 2005 “Mod´lisation des
e
e
connaissances” de fa¸on intuitive au travers un exemple. Concr`tement, notre m´thode
c
e
e
utilise pour les calculs le mod`le des graphes conceptuels (Sowa 1984).
e
Cet article est structur´ comme suit : la section 2 traite de notre m´thode grae
e
phique d’interrogation et de v´rification de diagrammes de classes UML. En section 3,
e
nous abordons l’aspect calculatoire de notre m´thode qui utilise la mod`le des graphes
e
e
conceptuels. La section 4 discute des r´sultats et des perspectives de notre m´thode.
e
e

2

Interroger et V´rifier un diagramme de classes
e

Nous indiquons d’une part comment formuler une requˆte pour interroger le contenu
e
d’un diagramme de classes UML, d’autre part, comment d´finir les crit`res de validit´
e
e
e

-7-

RNTI-E-5

Transformation des concepts du
diagramme de classe UML en OWL full
Macaire Ahlonsou, Emmanuel Blanchard
Henri Briand, Fabrice Guillet
2bis boulevard Léon Bureau BP96228 de l’Université de Nantes
http://www.sciences.univ-nantes.fr/lina/fr/
LINA – Université de Nantes
Ecole polytechnique de l’université de Nantes
La Chantrerie, rue Christian Pauc 44306 Nantes CEDEX 3
{Prenom.Nom}@polytech.univ-nantes.fr
Résumé. Le web peut être considéré comme une grande base de
connaissances. La recherche des informations pertinentes sur la toile est rendue
de plus en plus difficile, voire impossible avec l’accroissement de la
volumétrie des pages disponibles. Le problème réside dans le fait que les outils
existants ne peuvent pas s’appuyer actuellement sur une description du
contenu des documents. Le web sémantique utilise différents langages pour
mieux exploiter et traiter les contenus des ressources web. Dans le but de
passer de UML vers OWL, il est intéressant d’étudier la possibilité de
transformer chacun des concepts du diagramme de classe UML en OWL.

1 Introduction
UML (Unified Modeling Language) (Gaertner et al. 2002) est un langage de modélisation
orienté objet clairement adopté dans le monde industriel. Le web sémantique est une vision
du futur web dans lequel l'information serait explicitée de manière à permettre son traitement
automatique par des machines. Nombreuses sont les applications qui sont déjà modélisées en
UML. Il n’existe pas de langage de modélisation spécifique pour modéliser une base de
connaissance. On peut étendre l’utilisation de UML, notamment les diagrammes de classe à
cette fin (Walter 1998).
L’objectif de cet article est d’étudier la possibilité de transformer les concepts du
diagramme de classe UML (langage semi formel) en OWL (langage formel). Cette
transformation est effectuée dans un seul sens (UML vers OWL) et reste dans un monde
clos. Nous proposons de transformer trois concepts du diagramme de classe après avoir situé
les divers langages du web sémantique les uns par rapport aux autres, en mettant en avant
leurs limites.

2 Langages et définitions
2.1 UML
UML est un langage de modélisation plébiscité dans le domaine de la conception. Il
permet de représenter les composants statiques et dynamiques des systèmes dépendant des
logiciels à travers des modèles représentés par des vues. Ces vues sont manipulées à travers
des diagrammes. Cet article ne traitera que le cas des diagrammes de classe.

- 13 -

RNTI-E-5

Mod´liser des connaissances ontologiques dans le
e
cadre du mod`le des Graphes Conceptuels
e
Fr´d´ric F¨rst
e e
u
LINA - FRE 2729
22 rue de la Houssini`re, BP 92208, 44322 Nantes
e
furst@lina.univ-nantes.fr
R´sum´. Cet article pr´sente OCGL (Ontology Conceptual Graph Lane
e
e
guage), un langage de repr´sentation d’ontologie bas´ sur le mod`le des
e
e
e
Graphes Conceptuels. Il dćrit en d´tail la fa¸on dont une ontologie est
e
e
c
mod´lisé en OCGL, et pr´sente l’impl´mentation de ce langage dans l’atee e
e
e
lier d’ingńierie ontologique TooCoM.
e

1

Introduction

L’ingńierie des ontologies est né de la volont´ de diversifier les applications des
e
e
e
Syst`mes a Base de Connaissances (SBC), et de permettre des repr´sentations de
e
`
e
connaissances ind´pendantes de ces diverses applications (Gomez-Perez et al., 2003).
e
L’int´gration d’un tel composant dans un Syst`me a Base de Connaissances suppose
e
e
`
alors d’adapter les repr´sentations qu’il int`gre a l’objectif op´rationnel du syst`me,
e
e
`
e
e
adaptation qui est l’objet du processus d’op´rationalisation des ontologies (F¨rst et al.,
e
u
2004). D’autre part, les ontologies ont vocation a int´grer toute la s´mantique des
`
e
e
diff´rents domaines de connaissances, c’est-`-dire des propri´t´s de base comme la sube
a
ee
somption entre concepts, mais ´galement toute propri´t´ permettant d’exprimer la
e
ee
s´mantique du domaine consid´r´. Les ontologies ´voluent ainsi des ontologies l´g`res
e
e e
e
e e
(lightweight ontologies), n’int´grant qu’un nombre restreint de propri´t´s, vers des ontoe
ee
logies lourdes (heavyweight ontologies), visant la mod´lisation de toutes les propri´t´s
e
ee
nćessaires a la repr´sentation de toute la s´mantique d’un domaine (Gomez-Perez
e
`
e
e
et al., 2003).
Dans cet article, nous pr´sentons OCGL (Ontology Conceptual Graph Language),
e
un langage de repr´sentation d’ontologies lourdes, bas´ sur le mod`le des Graphes
e
e
e
Conceptuels (GCs) (Sowa, 1984). OCGL est impl´ment´ dans l’outil TooCoM (a Tool to
e
e
Operationalize an Ontology in the Conceptual Graph Model), d´di´ a la mod´lisation et
e e`
e
l’op´rationalisation d’ontologies lourdes dans le cadre du mod`le des Graphes Concepe
e
tuels 1 . Nous d´taillons ici le mod`le de repr´sentation utilis´ dans TooCoM, mais ne
e
e
e
e
pr´sentons pas le processus d’op´rationalisation qu’il impl´mente, renvoyant pour cela
e
e
e
le lecteur a (F¨rst et al., 2004).
` u

1. Cet outil est disponible sous licence GPL sur le site http://sourceforge.net/projects/toocom/

- 19 -

RNTI-E-5

Cartes cognitives de graphes conceptuels
David Genest, Stéphane Loiseau
LERIA – Université d’Angers, 2, Boulevard Lavoisier – 49045 Angers cedex 1
{genest,loiseau}@info.univ-angers.fr
Résumé. Le modèle des cartes cognitives offre une représentation graphique
d’un réseau d’influences entre différentes notions. Nous proposons un nouveau
modèle de cartes cognitives qui intègre la partie représentation des
connaissances et l'opération de projection du modèle des graphes conceptuels.

1

Introduction

Une carte cognitive (Tolman 1948) contient deux types d'informations : des nœuds
appelés états représentant des concepts et des arcs entre ces nœuds représentant des liens
d'influence positifs ou négatifs. Un mécanisme d’inférence propage les influences.
Une première faiblesse des cartes cognitives est sa trop grande souplesse car un état peut
être représenté par n'importe quelle étiquette linguistique. Une seconde faiblesse du modèle
est l’absence de structuration des états, qui fait que des liens entre états, autres que ceux
d’influence, ne peuvent pas être exprimés.
Le modèle des graphes conceptuels (Sowa 1984) est un modèle de représentation
graphique de connaissances. Un graphe conceptuel est défini sur une structure appelée
support permettant de spécifier en hiérarchie le vocabulaire. Une opération d'inférence,
appelée projection, permet de rechercher des graphes qui sont sémantiquement liés entre eux.
L’idée du modèle des cartes cognitives de graphes conceptuels que nous proposons
consiste à décrire chaque état par un graphe. D’abord, l’utilisation d'un graphe conceptuel,
associé à chaque état, permet de définir chaque état en référence à une ontologie qui est le
support. Ensuite, on peut calculer ou regrouper des classes d’états qui sont liés entre eux dans
une collection. Enfin, cette classification peut se combiner avec le calcul d'influence.
Dans la partie 2, nous décrivons le modèle des cartes cognitives de graphes conceptuels.
La partie 3 décrit la notion de collection. Dans la partie 4, nous définissons les opérations
permettant le raisonnement dans le modèle et décrivons les apports de ces opérations.

2

Modèle des cartes cognitives de graphes conceptuels

Le modèle des graphes conceptuels utilisé est celui défini dans (Chein et Mugnier 1992).
Tout graphe conceptuel est défini sur un support qui organise, à l’aide de relations « sorte
de », un vocabulaire composé de types de concepts et de types de relations (figure 1). Un
graphe conceptuel G est formé d’un ensemble de sommets concepts (CG), un ensemble de
sommets relations (RG), un ensemble d’arêtes (EG) et une application qui associe à tout
sommet et à toute arête une étiquette (étiqG). Le graphe conceptuel de la figure 2 représente
un accident mortel (accident dans lequel une personne est morte)
Une carte cognitive de graphes conceptuels permet de représenter des relations
d’influence entre différentes notions, appelées états, chacun de ces états étant défini par un
graphe conceptuel.

- 25 -

RNTI-E-5

Modélisation des connaissances émotionnelles par
les cartes cognitives floues
Nathalie Ronarc’h 2, Gaële Rozec 1,
Fabrice Guillet , Alexis Nédélec 3, Serge Baquedano 1 , Vincent Philippé 1
1
Performanse SA Atlanpôle La Fleuriaye 44470 CARQUEFOU
http://www.performanse.fr
2
LINA - Polytech' Nantes rue Christian Pauc BP50609 44306 Nantes CEDEX 3
{Prenom.Nom}@polytech.univ-nantes.fr
3
CERV/ ENIB de Brest Technopôle Brest Iroise ; CP 15 ; 29608 Brest Cedex
{nom}@enib.fr
2

Résumé: Les recherches en psychologie ont permis d'établir une relation entre
émotions et prise de décision. La prise en compte de caractéristiques humaines
telles que les émotions et la personnalité dans les processus d’interaction entre
agents est au centre de ce travail. Il s'inscrit dans le cadre du projet GRACE
(Groupes Relationnels d'Agents Collaborateurs Emotionnels)/ RIAM (Réseau
des Industries, de l’Audiovisuel et du Multimédia) .

1

Introduction

Aujourd’hui peu d'outils permettent de décrire facilement les comportements d’individus.
Les sciences humaines apportent leur expertise en proposant des modèles émotionnels
décrivant le processus de décision et les comportements des humains dans un contexte
donné. Les cartes cognitives émotionnelles basées sur le modèle Performanse SA nous
servent d'outil de recueil d'informations sur l'évolution des émotions, suite à un événement
donné. Douze émotions, influencées par les traits de personnalité de l'individu, sont ainsi
représentées. La problématique est de traduire ces modèles en langage informatique. La
combinaison de la socio-psychologie et du domaine multi-agent (Ferber 95) nous apporte les
éléments nécessaires à la modélisation pertinente des comportements et des interactions
d'agents humains pouvant évoluer dans un milieu virtuel.
Dans ce contexte les travaux du CERV/ LI2, associé au projet GRACE / RIAM , sur les
SMA et la réalité virtuelle ont donné lieu à l'élaboration d'une simulation sur la plateforme
AréVi (Harrouet) dans laquelle les entités considérées, c'est à dire des agents autonomes,
sont capables de percevoir tout ou partie de leur environnement, de réagir aux évènements en
fonction de leur état interne et de leurs connaissances. Nos agents possèdent des capacités de
raisonnement, ils sont munis d'états mentaux, ce sont des agents cognitifs. De plus les agents
ont une personnalité qui nous permet de les distinguer.

2

Représentation du processus de décision de l'agent

Le processus de prise de décision de l'agent repose sur la boucle Perception – Décision –
Action du fonctionnement des agents cognitifs. Ainsi les cartes cognitives émotionnelles
(CEF) sont intégrées à un dispositif plus complexe de prise de décision de l’agent, tenant
compte de ses connaissances, de l’évaluation de l’événement perçu et de son estimation de
l’environnement. Le processus de prise de décision des agents, représenté Figure 1 et

- 31 -

RNTI-E-5

Logique Floue appliquée à l’inférence
du « Risque Inhérent » en audit financier
Souhir Fendri-Kharrat*
Hassouna Fedhila**
Pierre-Yves Glorennec***
* Ecole Supérieure de Commerce, Rte de l’Aéroport-Km 4, BP 1081, Sfax 3018-Tunisie
[souhir.kharrat@escs.rnu.tn]
** Institut Supérieur de Comptabilité et d’Administration des Entreprises, Campus, Manouba
2001-Tunisie
[hass530@yahoo.fr]
*** Institut National des Sciences Appliquées de Rennes, 20, Av. des buttes de Coësmes-CS
14315-35043 RENNES Cedex-France
[pierre-yves.glorennec@irisa.fr]
Résumé : Le Risque d’Audit est un indice d’existence d’erreurs dans les états
financiers d’une entreprise. Trois modèles mathématiques sont associés à ce
concept du RA : un modèle « Bayesien », un modèle « évidentialiste », et un
modèle « flou ». Ces trois modèles accusent des incohérences mathématiques
et des difficultés d’application pratique, surtout au niveau de la composante
« Risque Inhérent » du risque d’audit. Ils considèrent le processus cognitif
d’estimation du RI en tant que « boîte noire ». Nous proposons un simple
algorithme d’inférence flou interprétable pour capter le processus cognitif
d’estimation du RI, algorithme basé sur l’induction d’arbre de décision flou.
Notre objectif est d’identifier les éléments de cette structure et de démontrer
que l’utilisation d’une telle structure d’inférence floue est proche de la décision
réelle d’estimation du RI. Il s’agit d’une recherche exploratoire et
expérimentale.

1

Introduction
1

1

Aussi bien les normes internationales [ISA ] que les normes américaines [SAS ] d’audit
s’accordent sur le fait que l’audit financier est un audit de conformité entre les
réglementations en vigueur et les états financiers d’une entreprise. Les SAS n° 39, 47 & 55 et
les ISA n° 400 à 408, stipulent que la non-conformité de la comptabilité d’une firme à des
réglementations en vigueur, est l’essence même de l’erreur comptable (AICPA 2003 et IFAC
2003). Le concept de « Risque d’Audit » [RA] est un indice de l’occurrence d’erreurs dans
les rapports financiers : ces normes conceptualisent le « Risque d’Audit » [RA] en tant
qu’une intersection entre trois ensembles, à savoir : « Risque Inhérent » [RI], « Risque de
Non Contrôle » [RNC] et « Risque de Non Détection » [RND]. La première composante RI,
indique l’ensemble des erreurs pouvant s’infiltrer dans les états financiers et provenant de
1

SAS : .......Statements on Auditing Standards (normes d’audit de l’AICPA)
ISA : ........International Standards of Auditing (normes d’audit de l’IFAC)
AICPA :...American Institute of Certified Public Accountants (Ordre des experts comptables-USA).
IFAC : .....International Federation of Accountants (Fédération internationale des experts comptables).

- 37 -

RNTI-E-5

! #$ % &' ( ) * + ! "
"
,
3
89: <<<6
9 ;
;
67;

4
5
;

#.
67

/ *
0

12

= 9
=8
9
/ 7/ 9
9
/ /
8 8
62 /
9>/ 9
9
?
>
9 @
=
9
=
/=
A
/ 9/
9
==
9
=
6
/ / 9/ 9 9>
9 @
B 9 9
9
9
9
==
9
C >
/
9
8
/ 9/
9
/= 9 6 #
//
= 99
. > A
9
@
/ 7
9
A
9
9
/ / 9
B
9
9
?
= 9 9 #@
6
9 /
/
9 = 9>
9
@
9
/ / 9/
9
9
6
=
9
=8 /
9
9>
/
8
B >
9
9 @9
9
@ =
9
6
A
@ /
8
9 9
:
@ /
8
9
==
9 9@ /
8
9
=
/
9 6
/

9

A

. /
/
=

/
9
9@ 0
=
9
/
/
D 6 1
=
9= 9 =
/
7 9
7
9 7/ @ 9
9
7
7/ 9 @/ . >
/
/ 9 6 #
9
=
/
/ 9 /
= 9 9
=
=
@
/ 9
9
9 9 A 9 9
9
@
7
9
/
. 61
9
9
@
/ @ /=
8
@/
9 9
=
7
9
= 9@
/ E
7
7=
/F
>G
/ 9
/
9 9H
/8 /
=
=
A
B
9
= 6*/ >
9
.
9 == 9
@ / 7/ 9
/
7
9
= 9
9 9
9
G
9 /
/
>
B 6 1 9 / 7/ 9
9
9
9B 7 9
9
@
/9
.
/
9 9 / 9
9
9
=
/ 9
= =
9
= 6 I
9
8= /
8
/
9
B
9
/
@A
9
/
/ 9
=
A>
9
=6 #
=8
9
@9
9
/
9
9
/ 9
= 9
B
9
@ 9 9
=
= 99
/ / 6
8 8
.
.
@
9> @A 99
/
/ E=
9
= F =
/
9
/
D
9 @ 9
7
/
9 9
9
= 9@9
9> @ 0 = 9
B
9
== 9>
7
9
9
7
7 /9
9
B 9@ =
9
=
6

- 43 -

RNTI-E-5

Chapitre 2

Modèles graphiques probabilistes pour la modélisation
des connaissances : inférence, apprentissage et applications

Les modèles graphiques probabilistes sont classiquement définis comme étant le mariage
entre la théorie des probabilités et la théorie des graphes. Les probabilités permettent à ces
modèles de prendre en compte l’aspect incertain présent dans les applications réelles. La partie
graphique offre un outil intuitif inégalable et attractif dans de nombreux domaines d’applications
où les utilisateurs ont besoin de "comprendre" ce que raconte le modèle qu’ils utilisent.
Réciproquement, cela permet aussi à un expert des modèles graphiques de construire plus
facilement un modèle pour une application précise en s’appuyant sur les avis des spécialistes de
ce domaine.
L’utilisation conjointe des probabilités et des graphes nous offre une famille de modèles de
connaissance très riche, avec par exemple les réseaux bayésiens, les modèles de Markov cachés
et leurs dérivés ou les filtres de Kalman.
L’apparition d’un formalisme commun pour représenter et manipuler ces modèles donne
maintenant lieu à de fructueux échanges où un travail original sur l’un de ces modèles peut être
adapté ou généralisé aux autres, et ouvrir de nouvelles pistes de recherche. Citons par exemple le
cas des réseaux bayésiens dynamiques, qui utilisent à la fois des algorithmes développés
originalement soit pour les réseaux bayésiens statiques, soit pour les modèles de Markov cachés,
soit pour les filtres de Kalman, le tout en apportant un pouvoir expressif supplémentaire par
rapport à ces premiers modèles.

Responsable du chapitre : P. Leray

- 49 -

RNTI-E-5

Nous proposions dans cet atelier de dresser un panorama des activités de recherche dans le
domaine des modèles graphiques probabilistes, tant au niveau théorique que pour les aspects
applicatifs. Le but était donc de rassembler, dans le cadre de la conférence EGC 2005, et sous le
parrainage de CAFE, Collège Apprentissage, Fouille et Extraction de l’AFIA, les chercheurs
intéressés par le sujet et de fournir un lieu de discussion sur ses derniers développements.
Les présentations devaient aborder un des thèmes suivants :
• inférence : nouveaux algorithmes d’inférence exacte ou approchée
• stratégies et algorithmes d’apprentissage : élicitation de données, prise en compte de
données incomplètes / variables manquantes, modélisation biomimétique
• modèles graphiques probabilistes : réseaux bayésiens temporels, réseaux bayésiens
orientés objets, diagrammes d’influence, réseaux de neurones
• relations avec d’autres formalismes de représentation de l’incertain
• applications réelles
• outils logiciels
Afin de couvrir les nombreuses facettes du sujet tout en gardant du temps pour discuter, cet
atelier s’est déroulé sur une journée entière, avec sept présentations couvrant un spectre assez
large, de part les types de modèles graphiques utilisés (réseaux bayésiens « classiques », modèles
causaux, modèles dynamiques, réseaux bayésiens de niveau deux), les algorithmes mis en oeuvre
(inférence, apprentissage) et les domaines d’application concernés (diagnostic multiple de
systèmes complexes, reconnaissance de caractères manuscrits, détection d’intrusion, systèmes
multi-agents, traitement de la parole).
La première série d’articles traite des modèles graphiques dynamiques. F. Bach et M.I. Jordan
utilisent des modèles de Markov cachés pour une application de traitement de signal, l’estimation
de plusieurs fréquences fondamentales. Ce travail utilise de nombreuses avancées récentes des
modèles graphiques probabilistes temporels.
Le second article de cette série est consacré à l’inférence dans les Modèles de Markov cachés
hiérarchiques et factorisés. Ce travail, présenté par S. Gelly, N. Bredeche et M. Sebag, propose
un changement de formalisme permettant de "simplifier" ces modèles pour être capable de leur
appliquer des algorithmes d’inférence exacts.
L. Likforman-Sulem et M. Sigelle nous décrivent ensuite une application des réseaux
bayésiens dynamiques pour la représentation et la reconnaissance de caractères manuscrits.
La dernière série d’articles est consacrée à d’autres modèles graphiques probabilistes. Les
travaux de V. Delcroix, M.A. Maalej et S. Piechowiak passent en revue l’utilisation des réseaux
bayésiens pour le diagnostic multiple de systèmes complexes.
A. Faour, Ph. Leray et C. Foll décrivent ensuite l’utilisation de réseaux bayésiens au sein
d’une architecture de data-mining destinée à filtrer les alarmes dans les systèmes de détection
d’intrusion informatique.

RNTI-E-5

- 50 -

Nous passons ensuite des réseaux bayésiens "classiques" aux réseaux bayésiens causaux, et
plus précisèment les modèles causaux multi-agents avec le travail de S. Maes, S. Meganck et B.
Manderick, qui décrit un algorithme d’inférence pour ces modèles spécifiques.
L’article de L. Smail et J.P. Raoult conclut cette série d’articles en développant un nouveau
formalisme, les réseaux bayésiens de niveau deux et en illustrant le principe fondamental de dséparation dans ces modèles.

P. Leray (Laboratoire PSI - FRE CNRS 2645, INSA Rouen - philippe.leray@insa-rouen.fr
M.R. Amini (LIP6, Université Paris 6),
T. Artières (LIP6, Université Paris 6),
M. Bouissou (EDF / LAMA, Université de Marne la Vallée),
F. Druaux (GREAH, Université du Havre),
A. Faure (GREAH, Université du Havre),
O. François (PSI, INSA Rouen),
P. Gallinari (LIP6, Université Paris 6),
Y. Kodratoff (LRI, Université Paris Sud),
P. Naïm (Elseware),
O. Pourret (EDF),
J.P. Raoult (LAMA, Université de Marne la Vallée),
L. Smail (LAMA, Université de Marne la Vallée),
P.H. Wuillemin (LIP6, Université Paris 6).
Remerciements
Nous aimerions remercier F. Cloppet et les responsables de la conférence EGC 2005 pour
avoir accueilli cet atelier, et M. Sebag pour son aide concernant la diffusion de l’appel d’offre.

- 51 -

RNTI-E-5

Mod`les de Markov cach´s pour l’estimation
e
e
de plusieurs fr´quences fondamentales
e
Francis Bach∗ , Michael I. Jordan∗∗
∗

Centre de Morphologie Math´matique
e
Ecole des Mines de Paris
35, rue Saint Honor´
e
77305 Fontainebleau, France
francis.bach@mines.org
Computer Science Division
and Department of Statistics
University of California
Berkeley, CA 94720, USA
jordan@cs.berkeley.edu

∗∗

1

Introduction

Le suivi de la fr´quence fondamentale est un probl`me important du traitement
e
e
de la parole et de la musique, et le d´veloppement d’algorithmes robustes pour la
e
d´termination d’une ou plusieurs fr´quences fondamentales est un sujet actif de ree
e
cherches en traitement du signal acoustique (Gold et Morgan, 1999). La plupart des
algorithmes d’extraction de la fr´quence fondamentale commencent par construire un
e
ensemble de caract´ristiques non lináires (comme le corr´logramme ou le “cepstrum”)
e
e
e
qui ont un comportement spćial lorsqu’une voyelle est prononcé. Ensuite, ces ale
e
gorithmes mod´lisent ce comportement afin d’extraire la fr´quence fondamentale. En
e
e
pr´sence de plusieurs signaux mix´s additivement, il est naturel de vouloir mod´liser
e
e
e
directement le signal ou une repr´sentation lináire de ce signal (comme le spectroe
e
gramme), afin de pr´server l’additivit´ et de rendre possible l’utilisation de mod`les
e
e
e
destin´s ` une seule fr´quence fondamentale pour en extraire plusieurs.
e a
e
L’utilisation directe du spectrogramme nć´ssite cependant un mod`le probabilie e
e
tiste d´taill´ afin de caract´riser la fr´quence fondamentale. Dans cet article, nous
e
e
e
e
consid´rons une variante de mod`le de Markov cach´ et utilisons le cadre des mod`les
e
e
e
e
graphiques afin de construire le mod`le, apprendre les param`tres ` partir de donnés
e
e
a
e
et d´velopper des algorithmes efficaces d’inf´rence. En particulier, nous utilisons des
e
e
d´veloppments rćents en apprentissage automatique (machine learning) pour caracté
e
e
riser les propri´t´s ad´quates des signaux de parole et de musique ; nous utilisons des
ee
e
probabilit´s a priori non-param´triques afin de caract´riser la r´gularit´ de l’enveloppe
e
e
e
e
e
spectrale et nous am´liorons la proc´dure d’apprentissage grˆce ` l’apprentissage dise
e
a a
criminatif du mod`le.
e

- 53 -

RNTI-E-5

Inférence dans les HMM hiérarchiques et factorisés :
changement de représentation vers le formalisme des
Réseaux Bayésiens.
Sylvain Gelly∗ , Nicolas Bredeche∗ , Michèle Sebag∗
∗

1

Equipe Inference&Apprentissage - Projet TAO (INRIA futurs),
LRI, Université Paris-Sud, 91504 Orsay Cedex
(gelly,bredeche,sebag)@lri.fr

Présentation du problème

Une limite essentielle des HMM, et plus généralement des modèles de Markov,
concerne le passage à l’échelle, l’impossibilité de la prise en compte efficace de l’influence
de phénomènes indépendants et la difficulté de généralisation.
Pour répondre à ces problèmes, plusieurs extensions existent. En particulier, nous
nous intéresserons dans ce qui suit à la hiérarchisation (Theocharous et al. 2001, 2004)
et à la factorisation (Ghahramani 1996).
La hiérarchisation permet de réduire le nombre de liens entre états nécessaires dans
un HMM et par là même de réduire la complexité algorithmique de l’apprentissage ainsi
que l’imprécision. Quant à la factorisation, le principe est d’expliquer les observations
par plusieurs causes plutôt qu’une seule. C’est à dire qu’on remplace le P (Y |X) des
HMM par P (Y |X 1 , X 2 , ..., X n ). Les X i sont des variables cachées pouvant être gérées
i
i
indépendamment. Les P (Xt+1 |Xt ) sont alors différents pour chaque i.
– L’existence de dépendances multiples dans les FHHMM entraîne à priori une
explosion combinatoire du nombre de paramètres à apprendre, ce qui est d’autant
plus problématique lorsque peu d’exemples sont à notre disposition (ceci est une
propriété inhérente à la robotique) ;
– La présence de circuits dans les dépendances conditionnelles entre les variables
d’un FHHMM empêchent la modélisation directe par un réseau bayesien. Il est
à noter que ces dépendances ne concernent les variables qu’à un même pas de
temps (synchrones).
Dans la suite de cet article, nous ne ferons pas de différence entre les dépendances
synchrones et les transitions temporelles, les deux types étant des dépendances conditionnelles entre deux variables.
On ne peut ainsi pas adapter directement les algorithmes existants dans le cas des
HMM factorisés, ou hiérarchiques.
Un aspect important du problème est que notre système apprend à partir de données éparses car nous faisons l’hypothèse que nous ne disposons que d’un petit nombre
d’exemples pour apprendre. Ceci se justifie par le domaine d’application (la robotique
située), où le processus d’échantillonnage des données est contrôlé par un comportement dépendant entre autres de l’environnement et des capacités du robot qui ne
permet pas d’obtenir beaucoup d’exemples. Par conséquent, nous souhaitons exprimer
un compromis entre précision et vitesse de l’apprentissage.

- 57 -

RNTI-E-5

Représentation et reconnaissance de caractères manuscrits
par Réseaux Bayésiens Dynamiques
Laurence Likforman-Sulem, Marc Sigelle
GET-ENST/ Traitement du Signal et des Images et CNRS-LTCI (UMR 5141)
46, rue Barrault, 75013 Paris
{likforman|sigelle}@tsi.enst.fr

1 Introduction
Les approches stochastiques, tels que les modèles de Markov cachés (HMM), sont
largement utilisées pour la reconnaissance de la parole et de l’écrit (Elms et al. 1998 ;
Hallouli et al. 2002) pour leur capacité à s’adapter aux distorsions élastiques temporelles et
spatiales. Cependant ces modèles sont mono-dimensionnels. Une adaptation doit donc être
réalisée pour les images, par nature bi-dimensionnelles : celles ci sont converties en
séquences 1D d’observations le long d’une direction. Une séquence admissible
d’observations est par exemple la suite des colonnes de pixels en balayant l’image de gauche
à droite. D’autres séquences sont possibles : vecteurs de caractéristiques sur des fenêtres
glissantes, lignes de texte...
Les HMM font l’hypothèse que les observations sont indépendantes conditionnellement
aux états cachés, ce qui n’est pas toujours réaliste pour les images. Des extensions des HMM
permettant de mieux prendre en compte l’aspect bi-dimensionnel des images ont ainsi été
proposées avec les modèles pseudo-2D (ou planar HMM) (Gilloux 1994). Plus récemment,
des modèles 2D à base de champs de Markov ont été développés (Park et Lee 1998 ; Saon et
Belaid 1999 ; Chevalier et al. 2003). En faisant apparaître les dépendances entre variables
d’états ou observations, une modélisation plus fine de phénomènes peut être obtenue. Dans
cette optique, des modèles probabilistes s’appuyant sur les réseaux bayésiens statiques sont
apparus dans le domaine de la reconnaissance de l’écriture en-ligne (Cho et Kim 2003),
l’analyse de documents (Souafi 2002) et l’authentification de signatures (Xiao et Leedham,
2002). Les réseaux bayésiens dynamiques sont une extension des réseaux statiques qui
prennent en compte des séquences variables d’observations. On note ξt, l’ensemble des
variables d’états et d’observations au temps t. Un réseau bayésien dynamique à deux pas de
temps (2TBN) est défini par
– un réseau initial B1 qui spécifie la distribution initiale des états et les distributions
conditionnelles des états et des observations à t=1
– un réseau de transition Btr qui spécifie les distributions P(ξt+1 | ξt ). Ces distributions sont
supposées stationnaires, i.e. indépendantes de t.
Cette étude expérimente des modèles simples mono-flux de type HMM et des modèles
couplés. Les structures couplées sont toutes construites par la mise en correspondance de
deux réseaux simples mono-flux (ajouts de liens dans la structure graphique). Dans notre
application, les états cachés sont des variables discrètes et les observations sont continues.
Les observations sont soit les lignes, soit les colonnes normalisées de pixels d’un caractère,
obtenues par balayage séquentiel, soit les deux à la fois. L’évaluation de ces modèles a été
réalisée sur la base de chiffres MNIST (LeCun 1998).

- 61 -

RNTI-E-5

Les R´seaux Bay´siens versus d’autres mod`les
e
e
e
probabilistes pour le diagnostic multiple de gros
syst`mes
e
V´ronique Delcroix∗ , Mohamed-Amine Maalej∗
e
Sylvain Piechowiak∗
LAMIH, Universit´ de Valenciennes et du Hainaut-Cambr´sis, Le Mont Houy, 59
e
e
313 Valenciennes cedex 9
Veronique.Delcroix,Mohamed-Amine.Maalej,Sylvain.Piechowiak@univ-valenciennes.fr
http ://www.univ-valenciennes.fr/LAMIH/
∗

1

Introduction

Notre travail se situe dans le contexte du diagnostic multiple de syst`mes fiables
e
et de grande taille. Les syst`mes que nous consid´rons sont constitu´s de composants,
e
e
e
reli´s entre eux par leurs entrés ou sorties. Un composant C est soit en bon ´tat
e
e
e
ok(C) soit d´faillant ab(C). L’objectif du diagnostic est de trouver le ou les compoe
sants d´faillants qui expliquent le mieux des observations de panne. Plusieurs aspects
e
rendent cette tˆche difficile : la grande taille des syst`mes consid´r´s implique qu’un
a
e
e e
grand nombre de composants peuvent ˆtre d´faillants et que la liste des diagnostics core
e
respondant ` des observations de panne peut ˆtre longue ; de plus, pour les syst`mes
a
e
e
fiables, peu de scńarios de pannes sont connus et ils ne peuvent pas ˆtre utilis´s
e
e
e
pour la recherche des diagnostics. En revanche, la probabilit´ de d´faillance de chaque
e
e
composant est connue. En fonction de ces contraintes pour la recherche des meilleurs
diagnostics, les r´seaux bay´siens apparaissent comme un mod`le tr`s bien adapt´.
e
e
e
e
e
Apr`s avoir dćrit les r´seaux bay´siens que nous utilisons, nous pr´sentons notre ale
e
e
e
e
gorithme de diagnostic. Nous comparons ensuite notre approche avec d’autres mod`les
e
probabilistes utilis´s pour le diagnostic et expliquons en quoi ils ne sont en gń´ral pas
e
e e
adapt´s au diagnostic multiple de syst`mes fiables et de grande taille.
e
e

2

D´finitions et pr´sentation du mod`le utilis´
e
e
e
e

Un r´seau bay´sien est un graphe orient´ sans circuit dont les nœuds repr´sentent
e
e
e
e
les variables du syst`me (Becker et Na¨ 1999). Dans notre mod`le, les variables du
e
ım,
e
syst`me incluent les variables d’entrés/sorties des composants et les variables d’´tat
e
e
e
(ok ou ab) des composants. A chaque nœud est associé une distribution de probabilit´s
e
e
conditionnelles. On appelle observations de pannes un ensemble de variables dont la
valeur est connue et incompatible avec l’´tat normal du dispositif : au moins un compoe
sant est d´faillant. Un ´tat du syst`me repr´sente une affectation d’un ´tat (ok ou ab)
e
e
e
e
e
a
` tous les composants du syst`me. Un diagnostic est un ´tat du syst`me coh´rent avec
e
e
e
e
les observations de panne. Pour simplifier, nous d´signons parfois un diagnostic comme
e
l’ensemble des composants d´faillants. Un diagnostic est simple ou multiple selon le
e
nombre de composants d´faillants. L’objectif est de calculer les “meilleurs” diagnostics
e

- 65 -

RNTI-E-5

Réseaux bayésiens pour le filtrage d’alarmes dans les
systèmes de détection d’intrusions
Ahmad Faour1,2

Philippe Leray1

Cédric Foll1,3

ahmad.faour@ul.edu.lb

philippe.leray@insa-rouen.fr

cedric.foll@ac-rouen.fr

1
2

1

Laboratoire PSI - FRE CNRS 2645, INSA Rouen, France
Laboratoire LPM, Université Libanaise, Beyrouth, Liban
3
Rectorat de Rouen, France

Introduction

La détection des tentatives d’attaques sur un réseau est une problématique très
importante dans le domaine de la sécurité informatique. Les NIDS (Network Intrusion
Detection Systems), systèmes de détection d’intrusions, génèrent tellement d’alertes sur
un réseau qu’il en devient très difficile de déterminer celles générées par une attaque
réelle. L’utilisation d’outils de raisonnement probabiliste comme les réseaux bayésiens
(RB) peut être efficace pour détecter les problèmes réels. Nous allons donc tout d’abord
présenter les systèmes de détection d’intrusions et leurs limites puis passer brièvement
en revue l’application de méthodes d’apprentissage à cette problématique. Nous décrirons enfin notre architecture de filtrage d’alarmes issues de NIDS.

2

Systèmes de détection d’intrusions

Les firewalls utilisés sur les réseaux TCP/IP fonctionnent sur l’analyse des couches
IP et TCP/UDP/ICMP, pour déterminer quelles sont les machines impliquées dans
la connexion et à quel service la connexion s’adresse. Ce genre d’approche, bien que
nécessaire, se révèle insuffisant dans bien des cas (Chambet, 2002). Il faut donc pousser
plus loin l’analyse en examinant aussi les couches réseaux supérieures. Cette tâche, plus
difficile, est dévolue aux NIDS. Ces logiciels fonctionnent le plus souvent par signatures,
sur le même principe que les anti-virus (Zimmermann et al., 2002), en répertoriant les
attaques connues. Une alarme est donc générée à chaque fois qu’une trame réseau ressemble à une des attaques répertoriées. Lorsqu’un nouvel exploit (tentative d’intrusion
réussie) est répertorié, une signature adaptée sera ajoutée à la base de signatures. Cette
approche est souvent utilisée conjointement avec une approche statistique dans laquelle
le NIDS détermine d’abord un profil type du réseau (nombre de paquets échangés, volume des flux, nombre de connections, etc.) et alarme ensuite l’administrateur lorsque
le trafic courant dévie de ce profil. Malheureusement, les NIDS émettent généralement
une quantité importante d’alarmes que l’administrateur n’est pas capable d’interpréter
rapidement.
Depuis (Denning, 1987), les approches à base d’apprentissage statistique proposées
pour la détection d’intrusion peuvent être classées en deux types : les méthodes essayant
d’opérer avec les mêmes informations que les NIDS classiques (analyse de données
réseaux), et celles opérant à partir de données comportementales de plus haut niveau
(fichiers de logs de certaines applications ou du système).

- 69 -

RNTI-E-5

Causal Inference in Multi-Agent Causal Models
Sam Maes, Stijn Meganck, Bernard Manderick
Computational Modeling Lab,
Vrije Universiteit Brussel,
Pleinlaan 2 - 1050 Brussel,
sammaes, smeganck, bmanderi@vub.ac.be,
http ://como.vub.ac.be

1

Introduction

This paper treats the calculation of the effect of an intervention (also called causal
effect) on a variable from a combination of observational data and some theoretical
assumptions. Observational data implies that the modeler has no way to do experiments
to assess the effect of one variable on some others, instead he possesses data collected
by observing variables in the domain he is investigating.
The theoretical assumptions are represented by a semi-Markovian causal model
(SMCM), containing both arrows and bi-directed arcs. An arrow indicates a direct
causal relationship between the corresponding variables from cause to effect, meaning
that in the underlying domain there is a stochastic process P(effect |cause) specifying
how the effect is determined by its cause. Furthermore this stochastic process must
be autonomous, i.e., changes or interventions in P(effect |cause) may not influence the
assignment of other stochastic processes in the domain. A bi-directed arc represents a
spurious dependency between two variables due to an unmeasured common cause (Tian
and Pearl, 2002), this is also called a confounding factor between the corresponding
variables.
Deciding if a causal effect is identifiable (i.e. can be computed) in a SMCM amounts
to assessing whether the assumptions of a diagram are sufficient to calculate the effect of
the desired intervention from observational data. When all variables of a domain can be
observed, all causal effects are identifiable. In the presence of unmeasured confounders,
identifiability becomes an issue (e.g. the causal effect of X on Y is not identifiable in
the causal diagram of Figure 1, since we can not distinguish causal influence from X
to Y form the influence via the unobserved confounder (Pearl, 2000).

X

Y

Fig. 1 – The causal effect of X on Y is not identifiable in this SMCM.
In this paper we introduce an algorithm for the identification of causal effects in a
context where no agent has complete access to the overall domain. Instead we consider a
multi-agent approach where several agents each observe only a subset of the variables.
The main advantages of the multi-agent solution is that the identification of causal

- 73 -

RNTI-E-5

R´seaux Bay´siens de Niveau Deux et D-S´paration
e
e
e
Linda Smail, Jean-Pierre Raoult
Laboratoire d’Analyse et de Math´matiques Appliqués (CNRS UMR 8050)
e
e
Universit´ de Marne-la-Vallé
e
e
5 boulevard Descartes, Champs sur Marne 77454 Marne-la-Vallé Cedex 2
e
linda.smail@univ-mlv.fr, raoult@math.univ-mlv.fr
R´sum´. Etant donn´ une famille de variables alátoires (Xi )i∈I , mue
e
e
e
nie de la structure de r´seau bay´sien et un sous-ensemble S de I, nous
e
e
consid´rons le probl`me de calcul de la loi de la sous-famille (Xa )a∈S
e
e
(resp. la loi de (Xb )b∈S , o` S = I − S, conditionnellement ` (Xa )a∈S ).
u ¯
a
¯
Nous mettons en ´vidence la possibilit´ de dćomposer cette tˆche en plue
e
e
a
sieurs calculs parall`les dont chacun est associ´ ` une partie de S (resp.
e
ea
¯
de S) ; ces r´sultats partiels sont ensuite regroup´s dans un produit. Dans
e
e
le cas du calcul de (Xa )a∈S , ceci revient ` la mise en place sur S d’une
a
structure de r´seau bay´sien de niveau deux.
e
e

1

Introduction

Etant donn´ un r´seau bay´sien (Xi )i∈I , nous nous int´ressons, ´tant donn´ une
e
e
e
e
e
e
partie non vide S de I, ` la loi PS de la sous-famille XS = (Xi )i∈S et ` la loi PS/S , de
a
a
¯
la sous-famille XS = (Xj )j∈S conditionnellement ` XS .
a
¯
¯
Dans les r´seaux bay´siens poss´dant de nombreaux nœuds et fortement connect´s,
e
e
e
e
le calcul de lois ou de lois conditionnelles peut faire intervenir des sommations relatives `
a
de tr`s gros sous-ensembles de l’ensemble des indices I. Il y a donc int´rˆt ` s’efforcer,
e
e e a
au prálable, de dćomposer, s’il est possible, ces calculs en plusieurs calculs moins
e
e
lourds et pouvant ˆtre men´s en parall`le. Cette dćomposition est lié ` des propri´t´s
e
e
e
e
e a
ee
du graphe d´finissant le r´seau.
e
e
Les formules donnant PS et PS/S apparaissent alors comme des produits de facteurs
¯
d´pendant isol´ment des atomes pour des partitions appropriés.
e
e
e
La construction de ces partitions fait intervenir deux relations d’´quivalence dans
e
¯
S, toutes deux du type : x et y sont ´quivalents si et seulement s’ils sont reli´s, dans un
e
e
graphe non orient´ (GNO) convenablement d´duit du graphe orient´ (GO) d´finissant
e
e
e
e
le r´seau bay´sien, par une chaˆ ne passant pas par S. Deux tels GNO sont consid´r´s ;
e
e
ıne
e e
l’un, classique, est le graphe moral, pour lequel les arˆtes relient les nœuds joints par
e
un arc ou ceux ayant un enfant en commun ; l’autre, ` notre connaissance original, est
a
le graphe hyper-moral, pour lequel les arˆtes relient les nœuds joints par un arc ou ceux
e
dont les descendances proches (voir d´finition dans (Smail 2004) et en 2 ci-dessous) ont
e
une intersection non vide .
La formule de calcul de PS est lié ` une structure de r´seau bay´sien dont les nœuds
e a
e
e
ne sont pas les ´l´ments de I mais les atomes d’une partition de I (notion introduite
ee
en (Smail 2003) sous le nom de r´seau bay´sien de niveau 2).
e
e

- 77 -

RNTI-E-5

Chapitre 3

Modélisation d’Utilisateurs et Personnalisation de
l’Interaction Homme-Machine

Ã

L’acquisition, la modélisation et le traitement des préférences et besoins d’un utilisateur
jouent un rôle central dans le développement de services et de produits web (interaction et
dialogue avec l'utilisateur, connaissance client et ciblage de clientèle, etc.). Durant les vingt
dernières années, le domaine de la modélisation utilisateur a produit des résultats en terme de
méthodes et de théories pour l’analyse et la modélisation de l’interaction à court ou long terme de
l’utilisateur avec l’ordinateur et les systèmes informatiques en général. Des techniques de
personnalisation de l’interaction homme machine ont été développées, appliquées et évaluées
dans des domaines tels que le filtrage d’information, le commerce électronique ou les systèmes
éducatifs adaptatifs. Ces résultats sont le fruit de la coopération entre chercheurs de différents
domaines, l’intelligence artificielle, l’apprentissage automatique, l’interaction homme machine,
la psychologie cognitive, la linguistique, etc. Aujourd’hui, avec le développement d’Internet, la
conception de systèmes adaptatifs s’appuyant sur le web ainsi que l’adaptation et la
personnalisation d’interfaces sont devenus des aspects cruciaux du développement de bon
nombre d’applications. Parmi celles-ci, on peut citer l’accès aux hypermédias culturels, le ecommerce, les guides touristiques, la TV interactive, etc.

Responsables du chapitre : T. Artières, B. Bouchon-Meunier, P. Gallinari, C. Tijus

- 81 -

RNTI-E-5

Ce chapitre rassemble des contributions de chercheurs intéressés par la problématique de la
modélisation utilisateur au sens large et fait le point sur quelques uns des problèmes génériques
du domaine, des applications phares et des méthodes employées.
L’interaction de l’utilisateur avec un dispositif technique est très complexe. Deux articles
s’attachent à une modélisation fine des utilisateurs et de leurs pratiques. (Brézillon et Tijus)
s’intéressent à la modélisation d’un utilisateur accomplissant une tâche particulière, ici la
recherche d’information tandis que (Tijus et al.) se focalisent sur la problématique de la
représentation des connaissances pour modéliser les procédures utilisateurs sur un dispositif
technique.
Actuellement, la modélisation d’utilisateurs est utilisée dans la production de services
personnalisés, ces services sont principalement des services distribués. Trois contributions
discutent d’architectures de services de ce type. (Anli et al.) présente une architecture multiagents pour la personnalisation, appliquée à la personnalisation d’itinéraires. (Kanawati) décrit
une application de la modélisation utilisateur à la recherche d’information. Enfin, (Razmerita)
s’intéresse notamment aux perspectives d’utilisation des nouvelles technologies dans
l’apprentissage assisté par ordinateur et reposant sur l’emploi d’ontologies.
Dans ce type d’applications, les modèles d’utilisateurs sont assez frustres et les données
recueillies sur l’utilisateur sont basiques et bruitées, ce sont le plus souvent des traces de
navigation.
Deux contributions discutent du traitement des traces de navigation sur un site web ou sur
Internet en général. (Murgue) traite du problème du prétraitement des données de log, bruitées
par les techniques de cache et les proxys notamment. (Labroche) présente une technique
permettant de classifier les sessions de navigation d’utilisateurs sur un site et de les regrouper par
similarité. Enfin, (Njike et al) proposent une technique pour automatiser la construction et la
définition de modèles d’utilisateurs dans le cadre des hypermédias adaptatifs.

T. Artières (LIP6, Université Paris 6 - Thierry.Artieres@lip6.fr)
B. Bouchon-Meunier (LIP6, Université Paris 6 - Bernadette.Bouchon-Meunier@lip6.fr)
P. Gallinari (LIP6, Université Paris 6 - Patrick.Gallinari@lip6.fr)
C. Tijus (Université Paris 8 - tijus@univ-paris8.fr)

N. Carbonell (LORIA, Université Henri Poincare, Nancy)
H. Assadi (FT RD)
B. Trousse (Inria Sophia)
C. de la Higuera (Eurise, Univ. Jean Monnet - Saint Etienne)

RNTI-E-5

- 82 -

Représentation contextualisée des pratiques des utilisateurs
Patrick Brézillon *, Charles Tijus **
* LIP6, Case 169, Université Paris 6, 8 rue du Capitaine Scott, 75015 Paris
E-mail: Patrick.Brezillon@lip6.fr - http://www-poleia.lip6.fr/~brezil/
** Laboratoire Cognition & Usages, Université Paris 8, 2, rue de la Liberté,
93526 Saint-Denis Cedex 02, E-mail: tijus@univ-paris8.fr

Résumé. Le contexte intervient dans toue étude du comportement humain.
Nous présentons les graphes contextuels qui sont utilisés dans de nombreux
domaines comme l’intelligence artificielle, la psychologie, la sécurité
informatique, la gestion d’incidents, le diagnostic médical, ... L'idée centrale
de ce formalisme est la représentation au même niveau des éléments de
compréhension d’un utilisateur et des éléments contextuels dans lesquels les
éléments de compréhension prennent un sens et ont une validité. Nous
donnons un exemple dans le domaine de la recherche d’information. Cette
modélisation de l’utilisateur au travers de ses actions offre un intérêt pour
redéfinir les tâches prescrites dans le cadre du travail collaboratif.

1

Introduction

Le traitement des données contextuelles joue un rôle dans tous les domaines où le
raisonnement intervient, comme pour la compréhension, l'interprétation, le diagnostic, ... Ce
traitement repose sur une expérience qui n’est généralement pas explicitée, et sur une notion,
ce qu’on appelle contexte, qui n’a pas toujours pas une définition consensuelle suffisamment
précise pour être opérationnel (Bazire et al., 2005). Toutefois, une composante consensuelle
de cette définition est que le contexte est toujours relatif à quelque chose : le contexte d’un
raisonnement, le contexte d'une action, le contexte d'un objet, ... Nous nommons focus ce
référent du contexte (Brézillon, 2005) et nous proposons un modèle du raisonnement de
l’utilisateur, prise comme personne qui comprend, interprète, et diagnostique pour agir sur un
dispositif, qui est basé sur le traitement contextuel des données.
Dans la réalisation d’une interface, il est bien connu que toute procédure aussi détaillée
soit-elle laisse implicite un certain nombre de choses qui font que la procédure n’est jamais
universelle : l’interface ne fonctionne pas sur tel ou tel navigateur, les couleurs sont mal
calibrées sur un ordinateur, un utilisateur rejette systématiquement les cookies, etc.
Clairement, il est nécessaire de prévoir des variations autour de la procédure. Les procédures
théoriques (et parfaites) sont généralement adaptées par les utilisateurs pour prendre en
compte le contexte de leur focus. Le raisonnement pratique de l’utilisateur n'est pas un
raisonnement logique et théorique pour lequel l'opération conduit à la conclusion. Au
contraire, le raisonnement pratique a plus le statut d'un raisonnement inductif et probabiliste :
la conclusion ne peut être inféré à partir des seules prémisses. Il s’agit d’une situation
générale. Un exemple montre qu’à partir d’une suite de caractères « A p s E k U O h f P s
E », la consigne « parmi les voyelles, barrer la consonne » fait barrer le caractère « P », alors
même qu’une consonne ne peut être une voyelle (Tijus, 2001) : toutes les voyelles, dans ce
contexte étant des majuscules, la conclusion conduit à choisir la consonne en majuscule.

- 83 -

RNTI-E-5

Modélisation Sémantique de l’Utilisateur
Charles Tijus, Sébastien Poitrenaud
Jean-François Richard
Laboratoire Cognition & Usages
Université Paris 8, 2 rue de la Liberté, F-93526 St Denis cedex 02
tijus@univ-paris8.fr
Résumé. Notre approche « sémantique de l’utilisabilité », basée sur la
catégorisation, correspond à un mode de représentation des connaissances,
sous la forme d’un treillis de Galois qui permet de modéliser et simuler les
procédures utilisateurs sur un dispositif technique. Cette approche, qui diffère
de celles qu’on trouve avec SOAR ou ACT, associe les actions et les
procédures aux catégories d’objets, comme propriétés de ces catégories
(Poitrenaud, Richard & Tijus, sous presse). L’accès aux actions et procédures a
lieu à partir des catégories d’objets. Dans le cadre de cette approche, les
erreurs relèvent de méprises catégorielles et l’analogie relève des processus de
reconnaissance qui ont lieu lors de la catégorisation. La modélisation et la
simulation dans le cadre de cette approche se réalisent avec les formalismes
développés par Poitrenaud (1995): ProcOpe et STONE.

1

La sémantique de l’utilisabilité

On peut avoir deux points de vue sur l’utilisateur. Un premier point de vue est celui de la
conception de dispositifs qui désire connaître et modéliser ses utilisateurs cible, pour savoir
comment personnaliser l’interface, quels liens recommander selon le profil utilisateur, etc.
Un deuxième point de vue est celui de l’utilisateur lui-même qui peut se demander pourquoi
l’interface ne lui convient pas et pourquoi il n’a pas perçu la signification du lien qui
correspondait à sa recherche. Ces deux points de vue sont complémentaires et leur
intégration devrait donner lieu à une modélisation plus complète de l’utilisateur. L’approche
de la sémantique de l’utilisabilité correspond au second point de vue. Elle découle des
recherches menées dans notre laboratoire sur la résolution de problème (Richard, Poitrenaud,
& Tijus,1993 ; Richard, Clément & Tijus, 2002). Ces recherches montrent que ce n’est pas
l’organisation des actions qui freine une planification réussie, mais la conceptualisation des
objets de l’action. D’où la grande différence de difficulté trouvée entre des problèmes
isomorphes, de la Tour de Hanoi par exemple, qui ont des habillages différents. Ainsi, le
problème de la Tour de Hanoi qui consiste à changer la place de 3 disques de taille différente
se résoud en moyenne au 11.4 coups alors que l’isomorphe qui consiste à changer la taille de
3 disques de place différente se résoud en moyenne au bout de 35.5 coups, alors que 7 coups
suffisent dans les deux cas. On mesure toute l’importance de la sémantique, c’est-à-dire de la
signification accordée aux objets qu’on manipule. Ainsi, le paradigme de la Tour de Hanoi,
problème apparemment trivial pour l’informaticien, doit être considéré sérieusement,
lorsqu’on découvre les grandes différences de comportement lorsque change l’habillage du
problème, c’est-à-dire sa sémantique. C’est aussi un paradigme qui sert de base à la
modélisation de l’utilisateur et sert à valider les propositions de modèles.

- 89 -

RNTI-E-5

!#
"
$
% ! " "(
&'

+

9
) 0
: :
0:
0
1 .
; <>
/
)
1

8
1 0
)
;
<

1

.
9)):
?
1 . :
1
) )
: :1
1

)
*&
,
- .. )
/0
13
23
444/ . . )
/03
)
5 6
&
.
% !#7
&5
*
- )
/0
13
23
444/ )
/0

)

*

91 )
1

:
9 .
) *
1
0
<8 =>
)
;*
. ) =>
)
: 0
)/ <
:
:
1 0
9
1
1
) 1 )
1) /
1 1
1
0
?
9
)
.
1
1 1
) ) 1
$@
<
< 0)
:
$@
:
:.
0
/
<
1 A:
1
1
90
1 /
9
) 9
1
) ) 0
) * 9 :
0
:.
:1 )
/
1

)

)
9

90
90

)
1

1
1
3

1

)

0
0
1
1
0:
0
/

1

:
1

9
)
1
1
) .
90
<8
)/
1 1
) 1
0
9))
1
)
)
9
* /
<
:1
) @ 9
: 1
?9
. 0)
90
A 9 :
1
1:
)
1 1: /
1
B
1
0
: .:
9
1)
9
)
1 . 0
9 C
1
) )
A
1
) 1
0:
0
9
)
; )
.
*
=> 1
) 1
0:
0
1
0
9
)
; <8
<
: :1
1
=>
9
) ?9
/
C) 0
0
1
1 ? ) ) 1
$@
1
; <>A
) . )
0:
0
1) /
1
) 1
9
)
1
0
:
0 1
A
$@
1
:
1
1
1

- 95 -

RNTI-E-5

Réflexions sur l'apport de l'exploration des traces d'usage
pour améliorer le tri des résultats des moteurs de recherche
sur le Web
Rushed Kanawati
LIPN – CNRS UMR 7030
99 Av. J.B. Clément 93430 Villetaneuse
rushed.kanawati@lipn.univ-paris13.fr
http://www-lipn.univ-paris13.fr/~kanawati
Résumé. Nous présentons dans ce papier un système de fouille coopérative de
données d'usage de moteurs de recherche sur le Web dont l'objectif est
d'améliorer le tri des résultats rendus par un moteur de recherche. Le système
est construit selon une architecture multi-agents où chaque utilisateur est
assisté par un agent personnel. Les agents coopèrent entre-eux et utilisent la
méthodologie du raisonnement à partir de cas pour re-trier les résultats rendus
par un moteur de recherche. Nous nous servons de ce système pour 1)
présenter notre analyse des choix de conception d’un système d’exploration
coopérative de données d’usage du Web et 2) montrer les problèmes qui
restent à résoudre et l’apport attendu des techniques de fouille de données
d’usage pour les résoudre.

1 Introduction
La présentation et le tri des résultats des moteurs de recherche est un problème important
dans le domaine de la recherche d’information sur le Web. En soumettant une requête à un
moteur de recherche l'utilisateur attend en retour un ensemble de documents triés en fonction
de leur pertinence par rapport à ses besoins informationnels. La contre performance des
moteurs existant est le meilleur témoin de la nécessité de nouvelles approches de tri de
résultats. Différents travaux se sont intéressés récemment au problème du tri de résultats de
recherche. Nous les classifions selon les trois axes suivants :
1.
2.
3.

Approches fondées sur l’exploration de la structure du Web (Brin & Page, 1998)
(Ding, 2002).
Approches fondées sur l’exploration des données d’usage (Chen & Meng, 2000)
(Arezki et al., 2004).
Approches coopératives ou approches orientées communauté d’utilisateurs
(Chidloveski et. al., 2000).

Nous nous intéressons à une approche hybride qu’on qualifie de fouille coopérative de
données d’usage. L’idée de base est de permettre à un groupe d’utilisateurs de partager
implicitement leurs expériences en recherche d’information (Trousse et. al., 1999),
(Kanawati, 2003), (Freyne, et. al, 2004). Un premier prototype d’un système d’agents
assistants d’aide au tri des résultat est proposé. Ce système est construit selon une
architecture égal-à-égal (Peer to Peer). Les agents assistants utilisent la méthodologie du

- 101 -

RNTI-E-5

Services contextualisés pour utilisateurs et
la modélisation des utilisateurs à base d’ontologies :
défis et perspectives
Liana Razmerita
INRIA, Projet Acacia, 2004 route des Lucioles
06902 Sophia-Antipolis Cedex
Liana.Razmerita@inria.fr
http://www-sop.inria.fr/acacia/personnel/Liana.Razmerita/
Résumé. Il existe un besoin d’outils avancés d’apprentissage sur le Web. Le
développement des nouvelles technologies comme le Web sémantique, le
calcul sur grille et les services web ouvrent de nouvelles perspectives et défis
pour la conception d’une nouvelle génération de systèmes d’apprentissage.
Cette nouvelle génération peut être conçue comme des services distribués,
autonomes, contextualisés, services web ou grille. Le papier présente le rôle et
les perspectives des nouvelles technologies pour le développement d’une
nouvelle génération de services d’apprentissage en s’appuyant sur le modèle
utilisateur et sur la modélisation des utilisateurs à base d’ontologies.

1

Introduction

Il existe un besoin d’outils avancés d’apprentissage sur le Web. Malgré des années de
recherche dans le domaine de l’apprentissage assisté par ordinateur, le défi des chercheurs
dans ce domaine est encore de concevoir et fournir de nouveaux outils ou services
d’apprentissage sur le Web. Ces services avancés devraient tenir compte des nombreuses
ressources existantes sur le Web, en intégrant aussi de nouveaux paradigmes pédagogiques.
Traditionnellement ; les systèmes d’apprentissage sont orientés sur le contenu et
l’apprenant est souvent vu comme un simple « absorbeur » d’information. On pense qu’une
nouvelle génération de systèmes avancés d’apprentissage doit intégrer de nouvelles
approches pédagogiques donnant à l’apprenant un rôle actif pour apprendre et construire ses
connaissances. Ces systèmes doivent être plus interactifs, plus collaboratifs dans le sens
qu’ils vont permettre et encourager la collaboration entre les apprenants ; mais ils doivent
aussi intégrer une vision plus centrée sur l’utilisateur, permettant de prendre en compte ses
besoins, ses caractéristiques, ses préférences, etc.
Le développement de nouvelles technologies comme le Web sémantique, le calcul sur
grille, les services Web ouvrent de nouvelles perspectives et défis pour une nouvelle
génération de systèmes d’apprentissage. Cette nouvelle génération de systèmes
d’apprentissage peut être conçue comme des services distribués, ubiquitaires, contextualisés,
services Web ou grille. Le Web contient une multitude de sources d’information et de
connaissance qui peuvent être utilisées comme objets d’apprentissage. Les méta-données
associées avec ces objets d’apprentissages et les caractéristiques de l’utilisateur vont

- 107 -

RNTI-E-5

De l’importance du pr´-traitement des donnés pour
e
e
l’utilisation de l’inf´rence grammaticale en
e
Web Usage Mining
Thierry Murgue
Eurise – Universit´ Jean Monnet
e
23 rue du docteur Paul Michelon
´
42023 Saint-Etienne Cedex 2
thierry.murgue@univ-st-etienne.fr
R´sum´. Le Web Usage Mining est un processus d’extraction de connaise
e
sance qui permet la d´tection d’un type de comportement usager sur un
e
site internet. Cette tˆche rel`ve de l’extraction de connaissances ` para
e
a
tir de donnés : plusieurs ´tapes sont nćessaires ` la rálisation du proe
e
e
a
e
cessus complet. Les donnés brutes, utilisés et souvent incompl`tes core
e
e
respondent aux requˆtes enregistrés par un serveur. Le pr´-traitement
e
e
e
nćessaire de ses donnés brutes pour les rendre exploitables se situe en
e
e
amont du processus et est donc tr`s important. Nous voulons travailler sur
e
des mod`les structur´s, issus de l’inf´rence grammaticale. Nous d´taillons
e
e
e
e
un ensemble de techniques de traitement des donnés brutes et l’´valuons
e
e
sur des donnés artificielles. Nous proposons, enfin, des exp´rimentations
e
e
mettant en ´vidence l’affectation des algorithmes classiques d’inf´rence
e
e
grammaticale par la mauvaise qualit´ des logs bruts.
e

1

Introduction

Le Web Usage Mining a ´t´ introduit pour la premi`re fois en 1997 (Cooley et al.
ee
e
1997). Dans cet environnement, la tˆche est d’extraire de mani`re automatique la fa¸on
a
e
c
dont les utilisateurs naviguent sur un site web. Depuis 1995, Catledge et Pitkow ont ´tue
di´ la mani`re de cat´goriser les comportements utilisateurs sur un site web (Catledge
e
e
e
1995). Le processus d’extraction de connaissance – pr´-traitement, fouille, interpr´tae
e
tion – est bas´ sur la disponibilit´ de donnés fiables : divers travaux on ´t´ men´s sur la
e
e
e
ee
e
fa¸on de traiter les donnés rćup´rables depuis un site web (Cooley et al. 1999, Pitkow
c
e
e
e
1997, Chevalier et al. 2003). Une grande majorit´ de chercheurs utilisent de mani`re
e
e
syst´matique les informations contenues dans les enregistrements du serveur (fichiers
e
de logs), mais ces donnés, sous forme brute, ne sont pas compl`tes : un pr´-traitement
e
e
e
est donc nćessaire. L’´tape suivante du Web Usage Mining consiste ` apprendre des
e
e
a
mod`les de comportement utilisateurs depuis ces donnés. Ainsi, ces derni`res annés,
e
e
e
e
de nombreuses m´thodes de traitement (Tanassa et al. 2004) et d’apprentissage ont
e
´t´ utilisés dans ce domaine : recherche de s´quences fr´quentes (Frias-Martinez 2002,
ee
e
e
e
Gery 2003), travaux sur l’utilisation de mod`les structur´s de type chaˆ de Markov ou
e
e
ıne
mod`le de Markov cach´ (Hmm) (Pitkow 1999, Bidel et al. 2003). Certains chercheurs
e
e
ont notamment travaill´s sur des mod`les grammaticaux : certains (Borges 1999) en utie
e
lisant des n-grams, d’autres (Karampatziakis et al. 2004) en ´tudiant le comportement
e

- 113 -

RNTI-E-5

Mesure d’audience sur Internet par populations de fourmis
artificielles
Nicolas Labroche
UPMC, LIP6, Pole IA, 8 rue du Capitaine Scott
75015 Paris
nicolas.labroche@lip6.fr
http://lofti.lip6.fr
Résumé. Nous présentons dans ce travail un outil pour la mesure d’audience
sur Internet, reposant sur l’extraction de profils de navigation représentatifs de
l’activité des internautes sur les sites. Ces profils sont obtenus par l’application
d’un algorithme de classification non supervisée – inspiré du système de
reconnaissance chimique des fourmis – sur des sessions de navigations
construites à partir des fichiers log du site étudié. Cet algorithme de
classification a été associé à une représentation multimodale des sessions
utilisateurs permettant d’employer l’ensemble des informations à disposition
dans les fichiers log (impacts sur les pages, heure de connexion, durée,
séquence des pages, …), ainsi qu’à une mesure de similarité adaptée pour créer
les profils de chacun des clusters obtenus. Il reste cependant d’autres modalités
(basées sur le contenu des documents accédés) qui pourraient améliorer la
capacité de l’outil à donner du sens aux profils découverts.

1

Introduction

La mesure d’audience sur Internet s’attache à extraire et à donner du sens aux navigations
des internautes. Ses champs d’applications sont nombreux : personnalisation automatique des
sites Web en fonction des pages accédées (Mobasher et al., 1999) ou encore recommandation
dynamique de pages aux internautes en fonction de leur navigation passée (Yan et al., 1996).
Dans ce cadre, la représentation des navigations des internautes est cruciale car elle
détermine le type de recherche d’informations qui pourra être conduit par la suite.
Généralement, les informations de navigation des internautes sur un site Internet sont
extraites d’un fichier log, présent sur le serveur Web, qui recense, pour simplifier et de
manière idéale, l’ensemble des demandes de pages du site de la part des internautes. Ces
requêtes clientes sont ensuite triées, filtrées et regroupées en sessions qui constituent pour
chaque internaute, l’ensemble des informations issues de leur navigation sur un site à un
moment donné (Cooley et al., 1999).
Plusieurs représentations des sessions ont été utilisées dans la littérature. Par exemple, le
système WebMiner (Cooley et al., 1999) utilise un vecteur de transactions qui indique pour
chacune des pages du site si elle a été accédée au moins une fois durant la session de façon à
extraire des règles d’association. Dans Masseglia et al. (1999), les auteurs conservent les
dates d’accès à chacune des pages pour extraire des règles séquentielles. D’autres
représentations ont été utilisées comme la durée de visite ou le nombre d’impacts par page

- 119 -

RNTI-E-5

Apprentissage d’une hiérarchie de concepts pour la
conception de modèles de domaine d’hypermédias
Hermine Njike Fotzo, Thierry Artières, Patrick Gallinari, Julien Blanchard, Guillaume
Letellier
LIP6, Université Paris 6
8 rue du capitaine Scott, 75015, Paris, France
{Prénom.Nom}@lip6.fr
Résumé. Nous décrivons comment apprendre automatiquement une hiérarchie
de concepts à partir d'une collection de documents. Les concepts, identifiés par
des ensembles de mots-clés, sont organisés en une hiérarchie de type
spécialisation/généralisation. Cette hiérarchie peut être utilisée pour construire
un modèle de domaine pour des collections de documents hypermédias. Nous
proposons des idées sur la façon de construire des modèles d’utilisateurs à
partir de tels modèles de domaine. Les modèles d’utilisateurs et de domaine
peuvent être visualisés à l’aide d’outils efficaces comme les Treemaps.

1

Introduction

Un hypermédia adaptatif est personnalisé, dynamiquement, en fonction de l’utilisateur.
La personnalisation peut consister en une adaptation du contenu de l’hypermédia ou à des
aides à la navigation en ajoutant/enlevant des liens (Brusilovsky 1996). La personnalisation
repose sur un modèle de l’utilisateur. Il n’existe pas aujourd’hui de consensus sur la
définition d’un modèle d’utilisateur, souvent défini de façon ad-hoc, mis à part pour les
hypermédias éducatifs et les systèmes tutoriaux (Da Silva 1998, De Bra 2003, Henze 1999).
Ces systèmes utilisent un modèle de domaine, conçu manuellement, à partir duquel on définit
les modèles d’utilisateurs. Un modèle de domaine est un graphe des concepts abordés dans
l’hypermédia, caractérisant l’ensemble des connaissances accessibles dans l’hypermédia. On
utilise alors des modèles d’utilisateurs du type Overlay user models, qui partagent la même
représentation que le modèle de domaine. Ce sont des vecteurs d’attributs (un pour chaque
concept) qui représentent une mesure d’intérêt ou de connaissance de l’utilisateur dans les
concepts (Da Silva 1998, De Bra 2003, Kavcic 2000). Les modèles sont mis à jour à partir de
la navigation de l'utilisateur. On peut également faire de l'inférence dans ces modèles en
utilisant le formalisme des réseaux bayésiens (Da Silva 1998, Henze 1999).
Dans ce papier, nous nous intéressons à la définition automatique d’un modèle de
domaine pour un hypermédia quelconque, à partir de son contenu. Il s’agit d’une étape
préliminaire pour construire des versions adaptatives de systèmes hypermédias quelconques.
Nous présentons ici une approche qui permet d’apprendre automatiquement une hiérarchie
des concepts abordés dans un corpus de documents textuels, à partir du contenu de ceux-ci.
Cette hiérarchie traduit une relation de spécialisation/généralisation entre les concepts.
Comme nous le montrons, cette approche fournit une vue hiérarchique alternative du site
web. Cette représentation du contenu thématique d’un site web permet de définir des
modèles utilisateurs plus appropriés, en utilisant par exemple le formalisme des modèles
bayésiens pour l'inférence. En outre, cette représentation associée à un outil de visualisation
(tel que les Treemaps) permet la maintenance et/ou l’analyse des modèles d'utilisateurs.

- 125 -

RNTI-E-5

Partie II
_

Extraction de Connaissances
Et
Web

- 131 -

RNTI-E-5

Chapitre 4

Métadonnées et Adaptabilité pour
les Systèmes d'Information sur le Web

Ã

Les Systèmes d'Information basés sur le Web (SIW) sont à la base du traitement et de la
diffusion de larges volumes d'informations sur le Net. S'appuyant sur l'infrastructure sousjacente, ils permettent, entre autres, de gérer l'information organisée en structure hypermédia.
Les limites des outils actuels de gestion de l'information sont essentiellement liées au fait qu'ils
sont proposés à un utilisateur “générique”. Dans ce contexte, la notion de Systèmes
d'Informations Adaptatifs (SIA) vise à proposer des informations adaptées (tant au niveau du
fond que de la présentation) à chaque (groupe d’)individu(s), notamment au travers de systèmes
de recommandation, de recherche d'information, de filtrage, basés sur la prise en compte de
profils et une personnalisation dynamique. Dans ce contexte, les métadonnées peuvent jouer un
double rôle. D'une part, elles sont utilisées pour décrire et identifier les différents types
d'information (donnée structurée, texte, image, audio, vidéo) qui participent aux ressources d'un
SIW. Les modèles sous-jacents sont, dans ce contexte, définis et exploités pour indexer et
rechercher l'information. D'autre part, les métadonnées sont utilisées pour décrire et identifier
différents profils utilisateurs. Les modèles sont exploités à des fins de personnalisation et
d'adapta/bilité/tivité pour que, à la fois services, contenu et présentation des informations, soient
adaptés aux besoins et préférences de l'utilisateur, selon son niveau de connaissance, ses centres
d'intérêts, sa disponibilité, son comportement, la configuration du matériel sur le poste de travail
utilisé,... Seront mis plus particulièrement en avant dans ce qui suit les formalismes semistructurés, comme RDF, MPEG-7, OWL, XMLSchema, pour la description des métadonnées,
mais aussi les besoins et usages de formalismes plus déclaratifs, comme les ontologies, tant au

Responsables du chapitre : F. Sèdes, J.Gensel, H. Martin

- 133 -

RNTI-E-5

Egc05 atelier rnti-e-5_(extraits)

Egc05 atelier rnti-e-5_(extraits)

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (17)

Similar to Egc05 atelier rnti-e-5_(extraits)

Similar to Egc05 atelier rnti-e-5_(extraits) (20)

Recently uploaded

Recently uploaded (18)

Egc05 atelier rnti-e-5_(extraits)