PhD Dissertation - Manuscrit de thèse de doctorat

5,768 views

Published on

Information retrieval, search, vertical search, domain-specific search, faceted search, ontology, Description Logics, Medical Search, CLEF, precision-oriented search,

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
5,768
On SlideShare
0
From Embeds
0
Number of Embeds
23
Actions
Shares
0
Downloads
23
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

PhD Dissertation - Manuscrit de thèse de doctorat

  1. 1. ´ `UNIVERSITE DE GENEVE ´ UNIVERSITE JOSEPH FOURIER Un mod`le de recherche d’information e orient´ pr´cision fond´ sur les dimensions e e e de domaine ` THESE en co-tutelle pr´sent´e par e e Sa¨ RADHOUANI ıd pour l’obtention des titresDocteur `s sciences ´conomiques et sociales (Universit´ de Gen`ve) e e e e Mention : Syst`mes d’Information e Docteur en informatique (Universit´ Joseph Fourier) eComposition du jury : Monsieur Mohand BOUGHANEM, Universit´ de Toulouse e Madame Sylvie CALABRETTO, INSA Lyon Messieurs Jean-Pierre CHEVALLET, IPAL Singapour, co-directeur de th`se e Yves CHIARAMELLA, Universit´ de Grenoble, co-directeur de th`se e e Gilles FALQUET, Universit´ de Gen`ve, co-directeur de th`se e e e Dimitri KONSTANTAS, Universit´ de Gen`ve, pr´sident du jury e e e Th`se No 671 e Gen`ve, 2008 e
  2. 2. La Facult´ des sciences ´conomiques et sociales, sur pr´avis du jury, a autoris´ e e e el’impression de la pr´sente th`se, sans entendre, par l`, ´mettre aucune opinion sur e e a eles propositions qui s’y trouvent ´nonc´es et qui n’engagent que la responsabilit´ de e e eleur auteur. Gen`ve, le 18 juillet 2008 e Le doyen Bernard MORARD Impression d’apr`s le manuscrit de l’auteur. ec Sa¨ Radhouani 2008. Tous droits r´serv´s. ıd e e i
  3. 3. Remerciements C’est un grand plaisir pour moi de remercier toutes les personnes qui ont permis` ce travail d’ˆtre ce qu’il est.a e Je remercie tout d’abord M. Dimitri Konstantas qui m’a fait l’honneur de pr´sider ele jury de cette th`se. e Je tiens ensuite ` remercier Mme Sylvie Calabretto ainsi que M. Mohand Bou- aghanem pour avoir accept´ de rapporter mon travail de th`se, ainsi que pour l’int´rˆt e e eequ’ils ont manifest´ ` son ´gard. ea e Je tiens ` adresser mes plus vifs remerciements ` M. Yves Chiaramella de m’avoir a aencadr´ pendant mon travail de th`se. Il a su me transmettre sa passion pour le do- e emaine de la Recherche d’Information et je lui en suis profond´ment reconnaissant. e Je voudrais ´galement remercier M. Jean-Pierre Chevallet d’avoir accept´ de co- e ediriger mon travail de th`se malgr´ les milliers de kilom`tres qui nous s´paraient. Sa e e e epatience et ses nombreuses remarques tr`s pertinentes m’ont ´t´ des plus pr´cieuses e ee edurant ce travail. Durant ma th`se, j’ai eu la toute grande chance de connaˆ et de travailler avec e ıtreM. Gilles Falquet, un directeur de th`se exceptionnel tant pour ses comp´tences e escientifiques que pour ses qualit´s humaines. Sans sa patience, sa disponibilit´ et son e eappui de tous les instants, cette th`se n’aurait probablement jamais vu le jour. Je elui en suis donc tr`s profond´ment reconnaissant. e e Je remercie les membres du laboratoire IPAL-I2R, en particulier Dr. Joo-HweeLim, pour leurs conseils et leurs soutiens tout au long de mon stage ` Singapour. a Je remercie aussi les membres de l’´quipe MRIM pour leurs remarques et leurs equestions pertinentes lors des r´unions de travail. e Un grand merci ` tous les membres du groupe ISI pour les moments agr´ables a e ii
  4. 4. que l’on a toujours partag´s : les moments sympathiques pass´s ` “La Petite Italie”, e e ales pauses th´, les branches Cailler, les ´coles de printemps, et tellement d’autres e echoses dont je ne peux faire la liste. Merci tout particuli`rement ` Claire-Lise pour e asa disponibilit´, son ´coute, et son soutien permanent. Merci ` Jean-Pierre pour les e e acorrections multiples de mon manuscrit, et les discussions sur l’histoire et la physique(dont les fameux trous noirs). Un grand merci ` Jacques pour ses conseils et sa colla- aboration qui m’ont ´t´ d’une grande utilit´ pendant mon travail et me seront d’une ee egrande utilit´ dans toute ma vie. Merci ` Mathieu pour les longues discussions que e al’on a eues sur la logique descriptive. Merci aussi ` Claudine, Gabriela, Jean-Claude, aKaveh, Luka, Mustapha et Patrick pour toutes sortes de raisons qu’il serait trop longd’´num´rer ici. e e Je remercie ´galement Evelyne Kohl, Marie-France Culebras et C´line Marleix- e eBardeau pour leur soutien administratif, ainsi que Daniel Agulleiro et Nicolas Mayen-court, Ing´nieurs syst`me du CUI, pour leur disponibilit´ permanente. e e e Je tiens ` adresser mes plus sinc`res remerciements ` toute la famille Falquet en a e at´moignage de ma profonde reconnaissance pour son hospitalit´, son encouragement e eet son soutien permanent tout au long de mon s´jour ` Gen`ve. e a e Je remercie mon oncle Mustapha Kouki en reconnaissance de son interminableencouragement et de ses pr´cieux conseils. e Je remercie ´galement mon instituteur M. Othman Bouzidi, a qui je dois tout ce e `que je suis. Je tiens ` remercier mon cousin Badra pour son soutien pendant mon s´jour en a eFrance. Mes sinc`res remerciements ` Jonas pour sa compr´hension, son soutien, et sa e a epatience en partageant mes p´riodes difficiles. e Je tiens ` remercier toute ma famille pour son encouragement constant ; avec une amention sp´ciale ` mes parents en t´moignage de ma profonde reconnaissance pour e a eleur patience et tous les sacrifices qu’ils ont consentis ` mon ´gard. Un grand merci a e iii
  5. 5. ` Radhouane, Haykel, Marouane et l’adorable Amira pour leur soutien, encourage-ament, et tellement de merveilleuses choses. J’adresse mes sinc`res remerciements ` Takoua qui a su me r´conforter et soute- e a enir pendant la derni`re ligne droite de ma th`se. e e Je remercie enfin tous mes amis (Isaac, Michael, Ramzi, Rim, . . .) et tous ceuxque j’aime et qui m’aiment. iv
  6. 6. R´sum´ e e Nous nous int´ressons ` un contexte de Recherche d’Information (RI) dans des mi- e alieux professionnels, o` les besoins d’information sont formul´s ` travers des requˆtes u e a epr´cises. Notre travail consiste ` d´finir un mod`le de RI capable de r´soudre ce type e a e e ede requˆtes. e Notre approche est fond´e sur les dimensions de domaine. Celles-ci sont d´finies ` e e atravers des ressources externes, et utilis´es pour produire une repr´sentation pr´cise e e edu contenu s´mantique des documents et des requˆtes. e e Nous d´finissons notre mod`le en utilisant la logique de descripton (LD). Nous e eprofitons de l’algorithme de calcul de subsomption offert par la LD afin de d´finir ela fonction de correspondance mettant en œuvre la pertinence syst`me. A travers ecet algorithme, la LD offre une capacit´ de raisonnement qui permet de d´duire e edes connaissances implicites ` partir de celles repr´sent´es explicitement dans la a e eressource externe, et permet ainsi de retrouver des documents pertinents pour unerequˆte mˆme s’ils ne partagent pas les mˆmes concepts que cette derni`re. e e e e Afin de tester la faisabilit´ de notre approche, une s´rie d’exp´riences a ´t´ ef- e e e eefectu´e sur la collection ImageCLEFmed-2005. Ces exp´riences nous ont permis de e esavoir jusqu’` quel point notre mod`le peut ˆtre appliqu´, et quelles sont les limites a e e eformelles et techniques qui lui sont li´es. e Afin d’´valuer l’apport de l’usage des dimensions en termes de performance ede recherche, nous avons men´ une deuxi`me s´rie d’exp´riences sur la collection e e e eImageCLEFmed-2005. Les r´sultats obtenus nous ont permis de conclure que la eprise en compte des dimensions est un moyen efficace pour la r´solution des requˆtes e epr´cises. e Mots cl´s : Recherche d’Information, requˆtes pr´cises, recherche multi-dimensions e e e(multi-facettes), dimensions de domaine, ressources externes, indexation s´mantique, eLogique de description. v
  7. 7. Abstract We are interested in a context of Information Retrieval (IR) in professional envi-ronments, where information needs are expressed through precise queries. Our goalis to define an IR model capable to solve such queries. Our approach is based on domain dimensions. These are defined through externalresources, and used to produce a precise representation of the semantic content ofdocuments and queries. We define our model using the description logic (DL). We take advantage of thealgorithm for computing subsomption offered by the LD, in order to define the mat-ching function implementing the system’s relevance. Through this algorithm, the DLhas a capacity of reasoning which can deduce implicit knowledge from those expli-citly represented in the external resource, and thus find relevant documents for aquery even if they do not share the same concepts with this query. In order to test the feasibility of our approach, a series of experiments was carriedout on the ImageCLEFmed-2005 collection. These experiences have enabled us toknow the extent to which our model can be applied, and what are the formal andtechnical limits associated with it. In order to evaluate the contribution of the use of dimensions in terms of retrievalperformance, we conducted a second series of experiments on the ImageCLEFmed-2005 collection. The obtained results have shown that taking into account dimensionsis an effective way to solve precise queries. Keywords : Information Retrieval, precise queries, multi-dimensional (faceted)search, domain dimensions, external resources, semantic indexing, Description Logic. vi
  8. 8. Table des mati`res e1 Introduction g´n´rale e e 1 1.1 Pr´ambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 1 1.2 Mod`les de RI bas´s sur les mots-cl´s . . . . . . . . . . . . . . . . . . e e e 2 1.3 Mod`les de RI bas´s sur les concepts . . . . . . . . . . . . . . . . . . e e 4 1.4 Vers un mod`le de RI bas´ sur les dimensions de domaine . . . . . . . e e 7 1.5 Probl´matique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 10 1.6 Plan de la th`se . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 142 Ressources externes et dimensions de domaine 15 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.2 Ressources externes & RI . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.2.1 Cr´dibilit´ des approches bas´es sur les ressources externes . . e e e 17 2.2.2 Exemple de ressource externe utilis´e en RI : WordNet . . . . e 18 2.3 Usage des ressources externes pour la repr´sentation des documents . e 19 2.3.1 La d´sambigu¨ e ısation . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.2 Indexation conceptuelle/s´mantique . . . . . . . . . . . . . . . e 23 2.3.3 Evaluation de la d´sambigu¨ e ısation . . . . . . . . . . . . . . . . 33 2.4 Usage des ressources externes pour l’expansion des requˆtes . . . . . . e 39 2.4.1 Expansion de requˆtes bas´e sur les relations lexico-s´mantiques e e e de WordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.4.2 Utilisation de WordNet pour une expansion “guid´e” de requˆtes 43 e e 2.4.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.5 Dimensions & RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.5.1 Le paradigme de la recherche bas´e sur les facettes . . . . . . e 46 2.5.2 Outils bas´s sur le paradigme de recherche multi-facettes . . . e 48 2.5.3 Fabrication des dimensions/facettes . . . . . . . . . . . . . . . 50 vii
  9. 9. 2.5.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543 Un Mod`le de RI fond´ sur les dimensions de domaine e e 57 3.1 Pr´ambule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 e 3.2 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.3 Sp´cificit´s du mod`le . . . . . . . . . . . . . . . . . . . . . . . . . . e e e 61 3.3.1 Exemples typiques de besoins d’information pr´cis . . . . . . . e 62 3.3.2 Vers un mod`le de RI orient´ pr´cision . . . . . . . . . . . . . e e e 67 3.4 La logique descriptive . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.4.1 Syntaxe et s´mantique du langage ALCQ . . . . . . . . . . . . e 70 3.4.2 Logique Descriptive et Recherche d’Information . . . . . . . . 72 3.5 Mod`le de RI : notation et d´finitions . . . . . . . . . . . . . . . . . . e e 73 3.5.1 Ressource externe . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.5.2 Indexation des documents . . . . . . . . . . . . . . . . . . . . 76 3.5.3 Formulation de la requˆte . . . . . . . . . . . . . . . . . . . . e 77 3.5.4 Correspondance entre la requˆte et le document . . . . . . . . e 77 3.6 Mod`le de RI orient´ pr´cision . . . . . . . . . . . . . . . . . . . . . . e e e 78 3.6.1 Mod`le de document . . . . . . . . . . . . . . . . . . . . . . . e 79 3.6.2 Mod`le de requˆte . . . . . . . . . . . . . . . . . . . . . . . . e e 83 3.6.3 ´ Evaluation des requˆtes . . . . . . . . . . . . . . . . . . . . . e 95 3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 984 Mise en œuvre du mod`le e 99 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 ´ 4.2 Etapes n´cessaires pour la mise en œuvre du mod`le . . . . . . . . . . 100 e e 4.2.1 E1 : Identification des ´l´ments de dimension . . . . . . . . . . 100 ee 4.2.2 E2 : Indexation pour la correspondance . . . . . . . . . . . . . 101 4.2.3 E3 : S´lection des documents . . . . . . . . . . . . . . . . . . 101 e 4.2.4 E4 : Indexation pour l’ordonnancement . . . . . . . . . . . . . 102 4.2.5 E5 : Ordonnancement des documents . . . . . . . . . . . . . . 102 4.3 R´alisation des ´tapes n´cessaires pour la mise en œuvre du mod`le . 102 e e e e 4.3.1 R´alisation des ´tapes E2 & E3 . . . . . . . . . . . . . . . . . 103 e e 4.3.2 R´alisation des ´tapes E4 & E5 . . . . . . . . . . . . . . . . . 109 e e 4.4 Exp´rimentations sur la collection CLEF-2005 . . . . . . . . . . . . . 110 e viii
  10. 10. 4.4.1 Contexte des exp´rimentations . . . . . . . . . . . . . . . . . . 110 e 4.4.2 Mise en œuvre du mod`le ` base de la logique descriptive sur e a la collection ImageCLEFmed-2005 . . . . . . . . . . . . . . . . 114 4.4.3 D´finition des ´l´ments de dimensions par des mots . . . . . . 120 e ee 4.4.4 D´finition des ´l´ments de dimensions par des concepts . . . . 124 e ee 4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1295 Conclusion 133 5.1 Apport th´orique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 e 5.2 Apport pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 5.3 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 ix
  11. 11. Table des figures 1.1 Objectif et processus de la Recherche d’Information . . . . . . . . . . 3 1.2 Sch´ma global de notre approche . . . . . . . . . . . . . . . . . . . . e 12 1.3 Dimensions de domaine stock´es dans une ressource externe . . . . . e 13 2.1 D´notation d’un concept par un ensemble de termes synonymes dans e diff´rentes langues. . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 17 2.2 Enonc´ de la requˆte 122 de la collection TREC-1 . . . . . . . . . . . e e 41 2.3 Interface d’acc`s multi-vues [38][39] . . . . . . . . . . . . . . . . . . . e 48 2.4 Interface multi-facettes du syst`me Flamenco . . . . . . . . . . . . . . e 50 3.1 Correspondance entre une requˆte et un document repr´sent´s en lo- e e e gique descriptive. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 3.2 Repr´sentation graphique du mod`le de document . . . . . . . . . . . e e 82 3.3 Calcul de la correspondance entre un document doc et une requˆte q e au niveau de l’indexation pour la correspondance . . . . . . . . . . . 96 3.4 Calcul du RSV entre une requˆte et un document au niveau de l’in- e dexation pour l’ordonnancement . . . . . . . . . . . . . . . . . . . . . 97 4.1 Repr´sentation graphique des ´tapes n´cessaires pour la mise en œuvre e e e du mod`le . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 e 4.2 Exemple pour la mise en œuvre du mod`le . . . . . . . . . . . . . . . 103 e 4.3 Repr´sentation graphique du mod`le de document . . . . . . . . . . . 105 e e 4.4 Repr´sentation graphique de la T-Box . . . . . . . . . . . . . . . . . 107 e 4.5 Calcul de la correspondance entre un document doc et une requˆte q . 108 e 4.6 La hi´rarchie de subsomption fabriqu´e par le raisonneur Pellet . . . 109 e e 4.7 Calcul du RSV entre une requˆte et un document au niveau de l’in- e dexation pour l’ordonnancement . . . . . . . . . . . . . . . . . . . . . 110 4.8 Exemple de requˆte de la collection ImageCLEFmed-2005 . . . . . . . 111 e x
  12. 12. 4.9 Premier niveau de la structure hi´rarchique de MeSH . . . . . . . . . 113 e4.10 R´sultats exp´rimentaux de la prise en compte des ´l´ments de di- e e ee mensions d´finis par des mots . . . . . . . . . . . . . . . . . . . . . . 124 e4.11 Variations des performances de notre syst`me appliqu´ sur trois index e e diff´rents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 e xi
  13. 13. Liste des tableaux 2.1 Pourcentage des documents corrects retrouv´s en premi`re position [32] 37 e e 3.1 Syntaxe et s´mantique du langage ALCQ. . . . . . . . . . . . . . . . e 71 4.1 Comparaison des r´sultats de notre approche avec le baseline. . . . . 122 e 4.2 Comparaison des r´sultats de notre approche avec le baseline. . . . . 127 e 4.3 Variations des performances de notre syst`me appliqu´ sur trois index e e diff´rents. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 e xii
  14. 14. Chapitre 1Introduction g´n´rale e e1.1 Pr´ambule e Depuis l’apparition de l’informatique, les connaissances stock´es sur support enum´rique n’ont cess´ de s’accumuler, et le nombre des documents qui les stockent e es’accroˆ tr`s rapidement. Nous arrivons ainsi ` une situation parfaitement contradic- ıt e atoire : jamais il n’y a eu autant d’informations disponibles, mais trouver dans cetteaccumulation, pr´cis´ment ce que l’on recherche, devient de plus en plus ardu. e eDevant le nombre important de documents disponibles, la recherche s´quentielle1 eest bien sˆ r tr`s limit´e et l’acc`s ` l’information bas´ sur une requˆte semble plus u e e e a e eefficace. Ainsi, la Recherche d’Informations (RI) devient davantage cruciale et lesSyst`mes de Recherche d’Information (SRI) deviennent une aide inestimable pour erechercher une information. La RI est un processus qui, ` partir d’une requˆte (expression des besoins en a einformation d’un utilisateur), permet de retrouver l’ensemble des documents conte-nant l’information recherch´e. La mise en œuvre de ce processus passe par une esp´cification d’un mod`le de RI int´grant : i ) une repr´sentation des documents ; e e e eii ) une repr´sentation de la requˆte ; et iii ) un appariement entre le document et la e erequˆte. Plusieurs mod`les ont ´t´ propos´s dans la litt´rature dont l’objectif com- e e ee e emun est de satisfaire au mieux les besoins de l’utilisateur. Chacun de ces mod`les se ediff´rencie par sa mani`re de repr´senter les documents et la requˆte, et de les mettre e e e een correspondance. Ceci d´pend g´n´ralement du contexte de la recherche : la na- e e e 1 En explorant manuellement une collection de documents. 1
  15. 15. ture du besoin de l’utilisateur, sa mani`re d’exprimer son besoin, ses exigences, les econnaissances qu’il a sur le domaine2 et les documents, etc. Dans la section suivante,nous d´taillons les principes de base de ces mod`les et pr´sentons leurs limites. e e e1.2 Mod`les de RI bas´s sur les mots-cl´s e e e L’objectif de la RI est de s´lectionner les documents qui traitent le mieux pos- esible du th`me de la requˆte (cf. Figure 1.1). A notre connaissance, il n’y pas de e econsensus sur la notion de th`me en RI. Dans notre th`se, nous adoptons la d´finition e e esuivante : un th`me est une id´e, un sujet d´velopp´ dans un discours, un ´crit, un e e e e e 3ouvrage . Pour atteindre l’objectif pr´cit´, les approches existantes4 en RI textuelle s’ap- e epuyent sur des m´thodes purement statistiques bas´es sur les distributions de mots- e ecl´s, pour calculer la similarit´ entre la requˆte et les documents du corpus. La e e epertinence d’un document par rapport ` une requˆte est calcul´e en fonction de a e ela similarit´ du vocabulaire et non pas en fonction de la similarit´ th´matique qui e e eexiste entre le document et la requˆte. En effet, pour qu’un document soit s´lectionn´ e e epar le syst`me, il doit partager les mˆmes mots (du moins une partie d’entre eux) e eavec la requˆte. Dans le cas du mod`le bool´en, pour ˆtre s´lectionn´, le document e e e e e edoit contenir tous les mots (conjonction) ou une partie des mots (disjonction) de larequˆte. Dans le mod`le vectoriel, plus un document partage des mots avec la requˆte e e eet dans la mˆme proportion de poids, plus il est pertinent pour cette requˆte. En e er´alit´, un document peut ˆtre pertinent mˆme s’il ne partage pas les mˆmes mots e e e e eavec la requˆte. Par exemple, un document contenant le mot “voiture” peut consti- etuer une r´ponse pertinente ` une requˆte contenant le mot “automobile”, mˆme si e a e ele mot “automobile” n’existe pas dans le document. Salton a soulign´ ce probl`me e eo` les auteurs de documents et les utilisateurs des SRI utilisent une grande vari´t´ u eede mots pour d´noter le mˆme concept [75]. Ce probl`me, qualifi´ de term mismatch e e e eou word mismatch [25][103], est dˆ au fait que l’analyse purement statistique, sur ulaquelle est bas´e la fonction de correspondance, permet seulement l’extraction des e 2 Selon le dictionnaire de l’Acad´mie fran¸aise, un domaine est tout ce qu’embrasse un art, une e cscience, une facult´ de l’esprit, etc. (exemples : le domaine de la peinture, de la sculpture, de la epolitique, etc.). 3 D´finition donn´e par le Centre National de Ressources Textuelles et Lexicales. e e 4 Bas´es sur les mod`les classiques de RI. e e 2
  16. 16. descripteurs mais pas leur signification. Fig. 1.1 – Objectif et processus de la Recherche d’Information Ainsi, nous observons un foss´ entre l’objectif de la RI et la m´thode qui la r´alise : e e eles techniques de RI existantes traitent essentiellement le signifiant, mais tr`s peu ele signifi´. En effet, l’objectif de la RI est de retrouver des documents qui traitent edu th`me de la requˆte, c’est-`-dire, dont le contenu s´mantique est similaire ` e e a e acelui de la requˆte. Mais en pratique, la mise en œuvre des SRI est faite de fa¸on ` e c ace que ces syst`mes recherchent les documents partageant les mˆmes mots avec la e erequˆte. Dans ce cas, soit les mod`les de RI sous-jacents ignorent le sens des mots e e(signifi´), soit ils supposent implicitement qu’il y a une correspondance stricte entre eles mots (signifiants) et les sens (signifi´s). Cette derni`re supposition est erron´e car e e eun signifi´ peut ˆtre exprim´ par diff´rents signifiants, et un signifiant peut expri- e e e emer plusieurs signifi´s diff´rents (selon le contexte). Par exemple, pour une requˆte e e econtenant le mot “Java” (langage de programmation), le syst`me peut compl`tement e eignorer le sens du mot Java et retourner des documents qui parlent de l’ˆ de Java ılesitu´e en Indon´sie. e e Il est clair que les SRI bas´s sur les mod`les de RI classiques ont fait beaucoup de e eprogr`s pour repr´senter et comparer la requˆte et les documents. Nous avons quand e e e 3
  17. 17. mˆme constat´, dans les campagnes d’´valuation (TREC5 , NTCIR6 , CLEF7 , etc.), e e eque la plupart des syst`mes semblent avoir atteint leurs limites de performances, bien eque la marge d’am´lioration semble encore grande (selon les mesures utilis´es pour e el’´valuation). Ceci est une indication que les optimisations de nature essentiellement estatistiques des mod`les existants ont atteint leurs limites. e Il nous apparaˆ qu’une am´lioration suppl´mentaire des performances des SRI ıt e e 8requiert l’utilisation de connaissances externes ` celles du corpus, notamment grˆce a a` la disponibilit´ croissante des ressources qui les stockent (dictionnaire, th´saurus,a e eontologie, etc.). Un certain nombre de ces ressources ont rencontr´ beaucoup de esucc`s dans le domaine de RI, que ce soit dans des domaines sp´cialis´s (ex. MeSH e e eet UMLS pour le domaine m´dical), ou dans un domaine g´n´raliste (ex. WordNet). e e eGrˆce ` l’apparition de nouvelles ressources dans des domaines de plus en plus divers a a(g´ographie, g´nomique, droit, etc.), cette tendance ne cesse de s’amplifier. e e1.3 Mod`les de RI bas´s sur les concepts e e Parmi les travaux de recherche qui ont essay´ de surmonter les limites pr´sent´es e e edans la section pr´c´dente, il existe une approche de RI dite “bas´e-concepts” (Conce- e e ept-Based Information Retrieval ). Selon les communaut´s (Intelligence Artificielle, Philosophie, Linguistique, Scien- ece de la cognition, etc.), il existe diff´rentes d´finitions de la notion de concept [31]. e eDe fa¸on g´n´rale, un concept est un objet mental (son milieu, c’est l’esprit hu- c e emain) qui peut ˆtre d´fini comme une abstraction g´n´ralis´e ` partir de propri´t´s e e e e e a eecommunes ` des objets concrets (leur milieu, c’est la r´alit´ telle qu’on la ren- a e econtre). En d’autres termes, une conceptualisation est une abstraction qui consiste` analyser la r´alit´ pour en tirer les propri´t´s pertinentes qui permettent de passera e e eedu particulier au g´n´ral. Un concept poss`de une extension et une compr´hension. e e e eL’extension est l’ensemble des objets qui poss`dent les propri´t´s correspondant au e eeconcept. En d’autres termes, c’est la quantit´ de r´alit´ ` laquelle le concept se rap- e e ea 5 http ://trec.nist.gov/ 6 http ://research.nii.ac.jp/ntcir/ 7 http ://www.clef-campaign.org/ 8 “externes” car non pr´sentes dans les documents ` traiter, du moins sous une forme explicite e aet compl`te. e 4
  18. 18. porte. Par exemple, le concept “Personne” a une plus grande extension que le concept“Femme”. La compr´hension quant ` elle est l’ensemble des propri´t´s qui donnent e a eeson contenu ` un concept (l’ensemble des propri´t´s qui caract´risent les objets du a ee econcept). Elle varie en fonction inverse de l’extension. Par exemple, le concept “Fem-me” a une compr´hension plus grande que le concept “Personne” (on peut ´num´rer e e eplus de propri´t´s ` son sujet). ee a Un concept est construit par l’ˆtre humain d’une mani`re non-ambigu¨, ind´pen- e e e edamment des langues, des supports et des formalismes de repr´sentation [18]. Mˆme e es’il est exprim´ ` travers une forme mat´rielle (des mots), le concept n’est pas e a emat´riel. e En consid´rant cette d´finition, il est tr`s difficile pour une machine d’extraire e e edes concepts ` partir d’une source num´rique. Cependant, il est possible d’associer a eun concept ` des ´l´ments d´crits dans des documents num´riques (textes, images, a ee e eetc.). C’est pour cette raison pratique qu’en RI la notion de concept est souventli´e au sens des mots : un concept correspond ` une signification particuli`re d’un e a emot (ou s´quence de mots). De son cˆt´, un terme est une paire (mot ou s´quence e oe ede mots, concept). C’est-`-dire, un terme est constitu´ d’un mot (ou s´quence de a e emots) qui sert pour d´noter un concept dans un domaine particulier. Le mot, quant e` lui, est l’unit´ du discours oral ou ´crit. Dans des langues comme le fran¸ais oua e e cl’anglais ´crits, le mot est repr´sent´ par une s´quence de lettres entre deux blancs. e e e ePour all´ger l’´criture, nous utilisons “terme” ´galement pour d´signer le mot ou la e e e es´quence de mots correspondant ` un terme. e a Une approche de RI bas´e-concepts se caract´rise par la notion d’espace concep- e etuel dans lequel les documents et les requˆtes sont repr´sent´s par opposition ` l’es- e e e apace de mots simples utilis´s dans les mod`les classiques [3]. Les travaux pr´sent´s e e e edans le cadre de notre th`se se situent dans cette classe d’approches. e Nous nous int´ressons ici ` l’am´lioration de la pr´cision en RI. A cette fin, nous e a e e´tudions l’utilisation des connaissances externes pour identifier les th`mes au niveaue edes documents et la requˆte. Plus pr´cis´ment, il s’agit de concevoir des mod`les de e e e erepr´sentation du contenu s´mantique des documents et des requˆtes. e e e 5
  19. 19. L’utilisation des connaissances externes a fait l’objet de plusieurs travaux souventorient´s vers l’am´lioration de la pr´cision (d´sambigu¨ e e e e ısation de termes, indexationconceptuelle), et/ou vers l’am´lioration du rappel (expansion de requˆtes). Dans ce e econtexte, elles servent ` expliciter le sens des termes dans le corpus en identifiant des aconcepts et ´ventuellement des relations entre ces concepts. Ceci permet au syst`me e ede prendre en compte la s´mantique sous-jacente aux termes ; d’abord, au moment ede l’indexation, la ressource externe est utilis´e pour extraire des termes faisant er´f´rence aux entit´s conceptuelles trait´es dans les documents ; ensuite, au moment ee e ede l’interrogation (reformulation de requˆte et correspondance), elle sert ` identifier e ales concepts des documents d´not´s par les descripteurs de la requˆte. Enfin, son e e eutilisation permet d’avoir des informations suppl´mentaires sur la s´mantique as- e esoci´e aux termes issus du contenu (document et requˆte), et d’aider ainsi le SRI ` e e ainterpr´ter le contenu s´mantique et ` am´liorer les performances de recherche. e e a e Cette classe d’approches pr´sente plusieurs avantages. L’utilisateur peut faire eusage des connaissances pr´sentes dans la ressource externe ` partir de laquelle le e acorpus a ´t´ index´. Cela peut l’aider ` augmenter sa connaissance par rapport ee e a` l’information qui lui est disponible dans le corpus. L’utilisateur peut ´galementa eutiliser le vocabulaire contrˆl´, pr´sent dans la ressource externe et utilis´ pour la oe e erepr´sentation des documents, pour mieux exprimer son besoin. Dans ce cas, la edescription du besoin d’information a les mˆmes caract´ristiques que celles des do- e ecuments. Nous pouvons dire que le principal avantage des approches bas´es-concepts est eque l’utilisateur et le syst`me arrivent ` “parler” le mˆme langage (celui qui cor- e a erespond au vocabulaire de la ressource externe utilis´e). Cependant, ces approches econsid`rent les documents et requˆtes comme des sacs de concepts. Ainsi, les relations e es´mantiques qui peuvent exister entre les concepts ne sont pas toujours exploit´es. e eCeci peut provoquer des probl`mes comme mentionn´s dans la section pr´c´dente : e e e eun document est consid´r´ pertinent seulement s’il partage les mˆmes concepts de la ee erequˆte (requˆte initiale ou ´tendue). Par exemple, pour la requˆte donne-moi les do- e e e ecuments qui parlent du politicien am´ricain qui a eu le prix Nobel de la paix en 2007, eun document pertinent doit contenir le nom Al Gore. Ce document ne peut cepen-dant pas ˆtre retrouv´ par un syst`me qui n’exploite pas les relations s´mantiques. e e e ePour pouvoir r´soudre cette requˆte, un SRI a besoin de connaissances externes pour e e 6
  20. 20. inf´rer que Al Gore est un politicien originaire des Etats Unis, etc. e Nous pensons que le principal probl`me de ces mod`les de RI est qu’ils consid`rent e e epeu la structure s´mantique des documents (requˆtes) lors de l’interpr´tation de e e eleurs contenus [4][58][68][92][96]. Nous sommes convaincus, qu’en plus de d´crire les econnaissances du(des) domaine(s) pr´sent(s) dans le corpus, les ressources externes epeuvent apporter des information utiles pour l’interpr´tation des th`mes d´velopp´s e e e edans les documents de ce corpus. Nos travaux vont actuellement dans ce sens.1.4 Vers un mod`le de RI bas´ sur les dimensions e e de domaine Dans notre travail de th`se, nous nous int´ressons ` un processus de RI dont le e e acontexte est pr´cis´ par le domaine d’int´rˆt de l’utilisateur. e e e e Nous avons vu pr´c´demment qu’un document qui partage les mˆmes descrip- e e eteurs (que ce soient des mots ou des concepts) avec la requˆte n’est pas forc´ment e epertinent pour cette requˆte. Ainsi, la question que nous nous sommes pos´e est : e e “Y a-t-il des ´l´ments, autres que les descripteurs, qu’un document doit ee partager9 avec la requˆte pour qu’il soit consid´r´ pertinent ?” e e eDans un processus de RI, l’utilisateur souffre d’un manque d’information, mais aune id´e des lacunes de ses connaissances et donc de son besoin en information. Une epremi`re difficult´ majeure ` laquelle doit faire face un SRI est que le besoin d’infor- e e amation est une chose particuli`re ` l’utilisateur. Comme il est rarement int´gr´ dans e a e ele processus de RI, son besoin d’information est souvent mal interpr´t´. Pour pouvoir eesatisfaire l’utilisateur, le SRI doit d’abord “comprendre” son besoin d’information.Une premi`re question se pose alors : Q1 “comment aider le SRI ` interpr´ter ce que e a el’utilisateur essaye de d´crire”. Autrement dit, en plus des descripteurs de la requˆte, e ey a-t-il d’autres ´l´ments qui peuvent aider le SRI ` avoir plus d’informations sur le ee a 9 Ce n’est pas seulement une intersection au sens simpliste du terme : ca pourrait ˆtre une ¸ eimplication logique, ou une probabilit´, etc. e 7
  21. 21. besoin de l’utilisateur ? Une deuxi`me difficult´ ` laquelle doit faire face un SRI est que l’utilisateur juge e eales documents qui lui sont retourn´s par rapport ` l’interpr´tation de son besoin et e a enon pas par rapport ` l’ensemble des documents du corpus susceptibles de l’int´resser a e[91]. Une deuxi`me question se pose alors : Q2 “comment int´grer l’utilisateur lors e edu processus d’indexation et du calcul de pertinence des documents ?” Pour r´pondre aux questions Q1 et Q2, nous avons choisi d’utiliser les connais- esances du domaine d’int´rˆt de l’utilisateur qui peuvent ˆtre d´crites ` travers des ee e e aressources externes. Nous avons suppos´ que ces ressources peuvent : i ) nous ren- eseigner sur les besoins de l’utilisateur pendant sa tˆche de recherche ; et ii ) aider le aSRI ` interpr´ter le contenu s´mantique du document et ` calculer la pertinence en a e e aprenant en compte la similarit´ th´matique entre le document et la requˆte10 . e e e En pratique, nous avons analys´ plusieurs requˆtes extraites de diff´rentes collec- e e etions des campagnes d’´valuation des SRI (ex. TREC, CLEF, etc.). A titre d’exemple, enous pr´sentons ici deux requˆtes extraites de deux collections de la campagne CLEF- e e2005 : la premi`re est extraite de la collection multilingue Multi-8, et la deuxi`me de e ela collection des comptes-rendus m´dicaux ImageCLEFmed. eRequˆte 1 : “Donne-moi les documents qui parlent du g´n´ral fran¸ais responsable e e e c de la cr´ation de la zone de s´curit´ pendant le conflit des Balkans ?” e e e Pour un lecteur humain, il est clair que l’on recherche des documents qui parlentd’une personne : g´n´ral fran¸ais. Un document pertinent, contenant le nom de la e e cpersonne en question, ne contient pas forc´ment les termes “g´n´ral” et “fran¸ais”. e e e cPour y rem´dier, une solution possible est de faire une expansion “intelligente” de ela requˆte pour informer le syst`me qu’on est ` la recherche d’une personne et pas e e aseulement des termes “g´n´ral” et “fran¸ais”. Le fait d’identifier l’´l´ment personne e e c eedans cette requˆte n’est pas suffisant pour la r´soudre. En effet, cet ´l´ment ap- e e eeparaˆ dans un contexte particulier qui est d´crit par d’autres ´l´ments. La personne ıt e ee 10 Nous verrons dans le chapitre de l’´tat de l’art que ces deux hypoth`ses sont inspir´es de e e ecertaines id´es qui ont ´t´ d´j` d´velopp´es. e e e ea e e 8
  22. 22. que l’on cherche a cr´´ une zone de s´curit´. Celle-ci a ´t´ cr´´e dans un lieu ee e e e e eeg´ographique : les Balkans. Enfin, la cr´ation de cette zone a eu lieu suite ` un e e a´v´nement : conflit des Balkans.e e Ainsi, pour interpr´ter le besoin d’information formul´ ` travers la requˆte 1, nous e ea e 11allons supposer qu’il est n´cessaire d’expliciter tous les ´l´ments-cl´s introduits par e ee el’utilisateur, et de disposer d’un langage de requˆte expressif pour mieux cerner ce eque l’utilisateur recherche.Requˆte 2 : “Show me x-ray images with fractures of femur ” e Pour un ˆtre humain, il est clair que l’on cherche des images qui contiennent un easpect anatomie (le f´mur ) et un aspect pathologie (fracture). Ces deux ´l´ments, e ee 12qui sont s´mantiquement reli´s , doivent apparaˆ dans une image dont la moda- e e ıtrelit´ est rayon-x. Ainsi, une image au rayon-x qui contient “une fracture du crˆne” e aou “un f´mur sans fracture” est suppos´e non pertinente par rapport ` cette requˆte. e e a eDe mˆme pour les images contenant “une fracture du f´mur ” dont la modalit´ n’est e e epas rayon-x. En observant plusieurs documents (requˆtes) de diff´rents domaines13 , nous avons e eremarqu´ une r´gularit´ au niveau des ´l´ments qui d´crivent les th`mes d´velopp´s e e e ee e e e edans les documents (requˆtes) appartenant ` un mˆme domaine. Par exemple, les e a eth`mes du domaine de la politique internationale peuvent ˆtre d´velopp´s en utili- e e e esant des ´l´ments tels que Personne, Lieu g´ographique, Epoque, Ev´nement, etc. En ee e em´decine, un th`me peut ˆtre d´velopp´ en utilisant des ´l´ments tels que Anatomie, e e e e e eePathologie, Stade de la maladie, Type de traitement, etc. Ainsi, nous appellerons ces´l´ments les dimensions de domaine et nous les d´finissons comme suit :ee e “Une dimension d’un domaine est un concept utilis´ pour exprimer des th`mes e e dans ce domaine.” 11 Par exemple, en proc´dant par une expansion “intelligente”. e 12 En m´decine, une fracture est une pathologie d’un os tel que le f´mur. e e 13 M´dical, politique internationale, astronomie, etc. e 9
  23. 23. Le concept associ´ ` la dimension est en pratique g´n´ral, c’est-`-dire, poss`de une ea e e a evaste extension et une compr´hension minimale. Si l’on peut construire une hi´rarchie e edes concepts du domaine, il devrait se trouver pr`s de la racine de la hi´rarchie, c’est- e e`-dire, il aurait de nombreux sous-concepts et peu ou pas de concepts super-ordonn´s.a e L’id´e sous-jacente ` notre approche est qu’un auteur, quand il r´dige son docu- e a ement, s’int´resse ` un domaine particulier pour d´velopper un th`me. Ainsi, il fait e a e er´f´rence ` des dimensions de son domaine d’int´rˆt pour d´tailler l’id´e exprim´e ee a ee e e edans son document. Pour ce faire, il fait r´f´rence aux concepts relatifs aux dimen- eesions choisies. Pour d´noter ces concepts dans son texte, il utilise des termes de son edomaine d’int´rˆt. ee Par exemple, pour r´diger un compte-rendu m´dical, un m´decin peut faire e e er´f´rence dans son texte aux dimensions “Pathologie” et “Anatomie”. Ensuite, il eefait r´f´rence ` des concepts relatifs ` ces dimensions, et enfin il utilise des termes ee a apour d´noter ces concepts. Par exemple, il peut utiliser les termes “seins” et “can- ecer”, ou “f´mur” et “fracture”, etc. e De la mˆme mani`re, un utilisateur s’int´resse ` un domaine particulier pour e e e ad´crire son besoin d’information. Il fait d’abord r´f´rence ` des dimensions de son e ee adomaine d’int´rˆt. Ensuite, il fait r´f´rence ` des concepts relatifs ` ces dimensions. ee ee a aEnfin, il emploie des termes pour d´noter ces concepts dans la requˆte qui exprime e eson besoin d’information.1.5 Probl´matique e Nous nous pla¸ons dans un contexte de recherche o` l’utilisateur d´crit un be- c u esoin pr´cis. Ce contexte est typiquement celui des milieux professionnels, o` les e uutilisateurs ont de bonnes connaissances de leur domaine d’int´rˆt, ainsi que des eedocuments (comptes-rendus, textes de loi, etc.) qu’ils consultent r´guli`rement. Lors e ed’une tˆche de recherche, les professionnels essayent de compl´ter l’information qu’ils a eont d´j` mais qui est insuffisante. Leurs besoins dans ce cas sont pr´cis et d´crits ea e e 10
  24. 24. ` travers une terminologie sp´cifique ` leurs domaines d’int´rˆt. Par exemple, una e a eem´decin d´sirant retrouver un compte-rendu, voudrait pouvoir formuler son besoin e ed’information de la mani`re suivante : e “Je cherche un compte-rendu sur le type de traitements ` effectuer en cas d’un a cancer du sein de stade M0 ”. Nous remarquons, ` partir de cet exemple, que le m´decin connaˆ bien la ter- a e ıtminologie de son domaine, et par cons´quent, que la description de son besoin est etr`s pr´cise. Nous remarquons ´galement qu’il se sert des dimensions de son domaine e e epour d´crire son besoin : anatomie, pathologie, traitement, stade de la maladie, etc. e Les professionnels sont des utilisateurs qui s’attendent a trouver une r´ponse ` epr´cise et de qualit´ ` leur requˆte, leur permettant de r´aliser leur tˆche profession- e ea e e anelle (´tablir un diagnostic, r´diger un article de presse, se documenter, etc.). Afin e ede permettre au syst`me de retrouver des documents en meilleure ad´quation avec e ele r´el besoin de tels utilisateurs, nous pensons qu’il est n´cessaire de prendre en e ecompte les dimensions du domaine d’int´rˆt de l’utilisateur. La question principale eeque nous posons ainsi est : “Comment satisfaire, ` partir de l’information “brute”14 , une requˆte pr´cise a e e formul´e par un utilisateur qui s’int´resse ` un domaine particulier ?” e e a Nous d´notons par le qualificateur “pr´cise” une requˆte qui, au contraire d’une e e erequˆte vague, contient une terminologie tr`s sp´cialis´e. Elle pr´sente une complexit´ e e e e e eau niveau de sa structure s´mantique qui peut ˆtre mat´rialis´e par un ensemble de e e e e 15relations s´mantiques et d’op´rateurs . Ce type de requˆte semble ˆtre adapt´ ` une e e e e eaindexation relationnelle qui permet de prendre en compte les relations s´mantiques elors de la repr´sentation du contenu du document ` indexer. e a L’objectif du travail d´crit dans notre th`se est donc de d´finir un mod`le de Re- e e e echerche d’Information qui soit en ad´quation avec le contexte particulier dans lequel e 14 Sac de mots dans les documents textuels, etc. 15 Bool´ens, quantificateurs, etc. e 11
  25. 25. nous nous situons : – L’utilisateur a une forte connaissance sur son domaine d’int´rˆt qui doit ˆtre ee e repr´sent´ au sein du syst`me ; e e e – La formulation de la requˆte est une description pr´cise du document recherch´ e e e par l’utilisateur. Celui-ci d´crit le document qu’il souhaite retrouver en utilisant e une terminologie sp´cifique ` son domaine. Il peut pr´ciser ce qui est important e a e (crit`re obligatoire) ou moins important (crit`re optionnel) que ce document e e contienne. Il peut ´galement utiliser des op´rateurs bool´ens, ou des quantifi- e e e cateurs pour pr´ciser le nombre d’´l´ments que le document doit contenir. e ee Fig. 1.2 – Sch´ma global de notre approche e 12
  26. 26. Fig. 1.3 – Dimensions de domaine stock´es dans une ressource externe e Nous proposons d’utiliser les dimensions de domaine afin de mettre en exergue lesaspects li´s aux descriptions s´mantiques du contenu des documents (requˆtes), et e e ed’identifier ainsi les th`mes qui y sont d´velopp´s. A cette fin, un mod`le de RI fond´ e e e e esur les dimensions est propos´. En consid´rant les exigences en termes de pr´cision e e edu syst`me, le langage de document et le langage de requˆte sur lesquels est e efond´ notre mod`le doivent ˆtre expressifs. Ils permettent d’une part, d’indexer e e eavec pr´cision le contenu s´mantique des documents, et d’autre part, d’interpr´ter le e e econtenu s´mantique des requˆtes pr´cises. Evidemment, notre mod`le doit permettre e e e e` l’utilisateur d’exprimer son besoin d’information pr´cis ` travers une requˆte.a e a e La mise en œuvre de notre mod`le n´cessite d’abord de d´finir les dimensions de e e edomaine puis de les rep´rer au niveau des documents (requˆtes). Pour rep´rer ces e e edimensions, il faut identifier les concepts qui leur sont associ´s, et donc les termes equi les d´notent dans les documents (requˆtes). Ceci peut n´cessiter une ´tape de e e e ed´sambigu¨ e ısation des sens des termes pr´sents dans les documents (requˆtes). e e Nous avons d´cid´ de d´finir les dimensions ` travers une ressource externe16 ` e e e a alarge couverture qui associe un ensemble de termes ` un concept. Dans la figure a1.2, nous pr´sentons le sch´ma global de notre approche. Disposant d’un ensemble e e 16 S´mantique : ontologie, linguistique : th´saurus, terminologique : dictionnaire terminologique, e eetc. 13
  27. 27. de dimensions d´finies ` travers une ressource externe (figure 1.3), notre approche e ainterpr`te le contenu s´mantique des documents et des requˆtes et les mets en cor- e e erespondance.1.6 Plan de la th`se e Apr`s ce chapitre introductif exposant notre probl´matique et les id´es que nous e e ed´fendons, nous consacrons chapitre 2 ` l’´tat de l’art. Nous passons en revue e a eles travaux qui utilisent les ressources externes pour la repr´sentation du contenu es´mantique des documents (requˆtes) lors du processus de RI. Nous ´tudions ´galement e e e eles travaux qui s’int´ressent ` la notion de dimensions de domaine. e a Dans le troisi`me chapitre, nous pr´sentons une d´finition formelle de notre e e emod`le de RI, et nous discutons plus particuli`rement de mani`re approfondie le e e emod`le de documents et le mod`le de requˆte. Nous montrons comment, en se basant e e esur les dimensions de domaines, notre mod`le parvient ` repr´senter avec pr´cision e a e ele contenu s´mantique des documents et satisfaire ainsi des requˆtes pr´cises. e e e Le quatri`me chapitre d´crit les ´tapes n´cessaires ` la mise en œuvre de notre e e e e amod`le dans le cadre d’application de documents textuels. Il d´crit ´galement une e e e´valuation exp´rimentale, de l’utilisation des dimensions pour la RI, bas´e sur dese e ecrit`res d’´valuation orient´s syst`me [23] op´r´e sur une collection de la campagne e e e e eeCLEF. Le cinqui`me chapitre r´sume les contributions apport´es par ce travail au do- e e emaine de la RI et ´voque ´galement les perspectives de d´veloppement et d’optimi- e e esation du mod`le propos´. e e 14
  28. 28. Chapitre 2Ressources externes et dimensionsde domaine2.1 Introduction Dans le chapitre pr´c´dent, nous avons pr´sent´ les limites des approches de RI e e e eexistantes qui ne prennent pas en compte la s´mantique des documents (requˆtes). e eDevant ces limites, plusieurs travaux, tentant d’incorporer l’information s´mantique edans le processus de RI, sont apparus en se basant sur la disponibilit´ de ressources eexternes telles que les ontologies ou les th´saurus. Dans le cas du processus d’indexa- etion, nous pouvons principalement identifier l’indexation conceptuelle ou l’indexations´mantique 1 [10][58]. Pour ce qui est du processus d’interrogation, l’accent a surtout eport´ sur l’expansion de requˆtes. Les ressources externes peuvent ´galement aider e e e` la formulation du besoin de l’utilisateur ` travers une interface graphique. C’esta adans cette derni`re direction que Hearts [37] et Hyv¨nen [38] ont propos´ d’utiliser e o eles dimensions de domaines . Dans le but de comprendre comment les ressources externes ont ´t´ utilis´es pour ee ela prise en compte de la s´mantique lors du processus de RI, nous pr´sentons, dans e ela suite de ce chapitre, les approches les plus repr´sentatives dans la litt´rature. e eAinsi, nous avons ´tudi´ des travaux sur l’indexation conceptuelle/s´mantique, puis e e edes travaux sur l’expansion de requˆtes. Avant de conclure ce chapitre avec une esynth`se des travaux existants, nous y discutons des travaux qui prennent en compte e 1 Ces deux terminologies sont utilis´es parfois par les chercheurs en RI avec quelques confusions. e 15
  29. 29. la notion de dimensions lors du processus de RI. Mais commen¸ons d’abord par cd´finir quelques notions sur les ressources externes. e2.2 Ressources externes & RI De fa¸on g´n´rale, selon les communaut´s (Linguistique, Sciences de la cognition, c e e eIntelligence artificielle, Philosophie, etc.), il existe diff´rentes d´finitions des notions e eque nous pr´sentons ici. Dans la suite, nous pr´sentons les d´finitions telles qu’elles e e esont utilis´es en Recherche d’Information et telles que nous les utilisons dans notre eapproche. Par ressource externe, nous entendons toute structure externe au corpus conte-nant des concepts et des termes qui les d´notent. Cette ressource peut ´galement e econtenir des relations entre les diff´rents concepts ; par extension, nous appelons econnaissances externes toutes les informations stock´es dans la ressource externe e(concept, termes, relations, d´finition, etc.). e Nous avons opt´ pour cette terminologie parce que, dans la communaut´ de RI, e eon utilise les mˆmes notations pour d´signer des ressources diff´rentes. Par exemple, e e epar abus de langage, le mot “ontologie” est utilis´ pour d´signer des ressources telles e eque, les th´saurus, les taxonomies, les hi´rarchies de concepts, etc. [32][51][62]. Nous e en’allons pas d´tailler ici les d´finitions de ces diff´rents types de ressources ; nous e e eallons seulement d´crire, dans la suite du manuscrit, les caract´ristiques de celle e edont nous avons besoin pour d´finir notre mod`le de RI. Ensuite, en fonction de nos e ebesoins, nous choisissons la ressource qui nous convient le mieux, quelle que soit sanature. Les concepts correspondent g´n´ralement aux nœuds (entr´es) d’une ressource e e eexterne. Ces nœuds peuvent contenir des informations suppl´mentaires telles que la ed´finition du concept, le terme le plus couramment utilis´ pour le d´noter, les termes e e esynonymes qui le d´notent, etc. e Par exemple, dans le m´ta-th´saurus UMLS2 , le concept correspondant au “li- e e 2 http ://www.nlm.nih.gov/research/umls/ 16
  30. 30. gament crois´ ant´rieur” est identifi´ par le code “C0630058”, et d´not´, dans le e e e e edomaine m´dical, par un ensemble de termes dans diff´rentes langues naturelles (cf. e efigure 2.1).Fig. 2.1 – D´notation d’un concept par un ensemble de termes synonymes dans ediff´rentes langues. e2.2.1 Cr´dibilit´ des approches bas´es sur les ressources ex- e e e ternes Nous sommes convaincus que les ambitions des approches bas´es sur les res- esources externes sont de plus en plus cr´dibles car le spectre d’applications et de edomaines concern´s ne cesse de s’´largir, ce qui favorise le d´veloppement de ces e e eressources. Parmi celles-ci, nous mentionnons particuli`rement les ontologies qui de- eviennent de plus en plus utiles dans une large famille de syst`mes d’information. ePar exemple, elles sont utilis´es pour d´crire et traiter des ressources multim´dias, e e epermettre l’int´gration de sources h´t´rog`nes d’information, piloter des traitements e ee eautomatiques de la langue naturelle, construire des solutions multilingues et inter-culturelles, etc. Ces utilisations se retrouvent dans de nombreux domaines d’applica-tion : Recherche d’Information, int´gration d’informations g´ographiques, commerce e e´lectronique, enseignement assist´ par ordinateur, suivi m´dical informatis´, etc.e e e e Un cadre d’application particuli`rement prometteur pour le d´veloppement des e esyst`mes ` base d’ontologies est celui du Web s´mantique 3 [8][15]. En effet, dans ce e a e 3 Il s’agit d’une extension du Web actuel, dans laquelle l’information se voit associ´e ` un sens e abien d´fini, am´liorant la capacit´ des logiciels ` traiter l’information disponible sur le Web. e e e a 17
  31. 31. contexte, l’annotation des ressources d’information repose sur des ontologies (elles-mˆmes disponibles et ´chang´es sur le Web). Grˆce au Web s´mantique, l’ontologie e e e a ea trouv´ un formalisme standard ` l’´chelle mondiale et s’int`gre dans de plus en e a e eplus d’applications Web, sans mˆme que les utilisateurs ne le sachent. e De ce fait, de plus en plus d’ontologies de domaines deviennent disponibles : on-tologie m´dicale, ontologie de la g´n´tique, ontologie de la g´om´trie, ontologie pour e e e e ele bˆtiment, ontologie de syst`mes documentaires, ontologie dans le secteur automo- a ebile, etc.4 La croissance du nombre d’ontologies sur le Web a mˆme favoris´ le d´veloppement e e ed’outils sp´cialis´s dans la recherche de ce genre de ressources. A ce sujet, men- e etionnons par exemple swoogle 5 (semantic Web search engine) qui est un moteur derecherche qui permet de retrouver des ressources ontologiques disponibles sur le Web. Malgr´ toutes ces r´alisations, l’expansion du d´veloppement des ontologies est e e eloin d’ˆtre achev´e. Ainsi, les ontologies qui s’appliquaient essentiellement ` des e e adonn´es (multim´dias) sont d´sormais utilis´es pour d´crire des logiciels (ex. les e e e e eservices Web). Elles commencent ´galement ` ˆtre utilis´es pour d´crire l’utilisateur e ae e een sp´cifiant par exemple son contexte d’interaction (les pr´f´rences de l’utilisateur : e eelangue, goˆ ts, droits, etc. ; les caract´ristiques de son terminal : mobile, vocal, etc. ; sa u esituation g´ographique : l’´tranger, dans une salle avec imprimante, etc. ; l’historique e ed’utilisation, etc.).2.2.2 Exemple de ressource externe utilis´e en RI : WordNet e WordNet6 est une base lexicale organis´e sous forme hi´rarchique autour de la e enotion de synset (ensemble de synonymes). Un synset regroupe des termes (simplesou compos´s) ayant un mˆme sens dans un contexte donn´. Par d´finition, chaque e e e esynset dans lequel un terme apparaˆ repr´sente un sens diff´rent de ce terme. ıt e eLes synsets sont organis´s par des relations d´finies sur eux, qui diff`rent selon la e e e 4 http ://ontology.buffalo.edu/, http ://www.geneontology.org/, http ://diseaseonto-logy.sourceforge.net/, http ://ontolingua.stanford.edu/, etc. 5 http ://swoogle.umbc.edu/ [visit´ le 08/07/07] e 6 Le choix de pr´senter WordNet est motiv´ par le fait qu’il est largement utilis´e dans la plupart e e edes approches que nous ´tudions dans notre travail, et dans la RI d’une mani`re g´n´rale. e e e e 18
  32. 32. cat´gorie grammaticale (Part Of Speech). Les principales relations s´mantiques is- e esues de WordNet utilis´es en RI sont les suivantes : la synonymie, la m´ronymie7 , e eet l’hyperonymie8 (is-a). Celle-ci est la plus dominante. Elle organise les synsetsdans un ensemble de hi´rarchies. e En plus d’ˆtre gratuitement disponible, l’avantage d’utiliser WordNet est qu’il ecouvre la majorit´ de la langue anglaise, ce qui la place souvent en ad´quation avec e eles donn´es trait´es en RI dans le cas g´n´ral. e e e e2.3 Usage des ressources externes pour la repr´se- e ntation des documents Afin de repr´senter le contenu des textes par des concepts, l’indexation concep- etuelle se base sur des techniques de d´sambigu¨ e ısation qui servent ` identifier les aconcepts d´not´s par les termes dans le texte. Dans la section suivante, nous rap- e epelons quelques techniques de d´sambigu¨ e ısation capable de r´aliser cette tˆche. En- e asuite, nous examinons des approches qui utilisent les ressources externes pour larepr´sentation du contenu des documents. e Nous verrons dans la suite de ce chapitre que les performances d’une approchede RI d´pendent de plusieurs facteurs. Dans notre cas, elles peuvent d´pendre de e ela qualit´ de la ressource externe utilis´e, de la qualit´ du d´sambigu¨ e e e e ıseur utilis´, edu mod`le de RI sous-jacent, etc. Donc, afin de bien ´valuer une approche de RI, e eil est int´ressant d’´valuer l’impact de chacun de ces facteurs sur ses performances. e eDe cette fa¸on, nous avons la possibilit´ d’identifier ce qui a bien fonctionn´ et ce c e equi a mal fonctionn´ lors d’une exp´rimentation de RI. C’est dans cette direction e eque nous pr´sentons un ensemble de travaux sur l’utilisation des ressource externe eet l’utilisation de d´sambigu¨ e ıseur pour la RI. 7 La classe des m´ronymes contient respectivement les concepts constituant des parties du concept e(... is a part of this concept, ... is a member of this concept ), ou dont le concept est une partie (thisconcept is a part of ... etc.). Exemple : voiture a pour m´ronymes porte, moteur. e 8 La classe des Hyperonymes contient les concepts p`res pour la relation de g´n´ralisation. La e e erelation inverse est l’hyponymie (sp´cialisation). e 19
  33. 33. 2.3.1 La d´sambigu¨ e ısation La d´sambigu¨ e ısation automatique des sens des mots est un probl`me qui a ´t´ e eelonguement ´tudi´ : Gale, Church et Yarowsky [30] citent par exemple un travail re- e emontant ` 1950. Dans ce chapitre, nous nous concentrons seulement sur les approches ales plus r´centes. Une revue plus d´taill´e de la d´sambigu¨ e e e e ısation est pr´sent´e par e eKrovetz [47] et Voorhees [27] et plus r´cemment une autre expos´e par Mark San- e ederson [79]. Plusieurs travaux ont ´tudi´ l’utilit´ de la d´sambigu¨ e e e e ısation pour la RI [32][47][77][78][80]. Ces efforts ont clairement montr´ que la d´sambigu¨ e e ısation est un probl`me eplus subtil que l’on pensait. Une des premi`res tentatives d’utiliser un d´sambigu¨ e e ıseuravec un syst`me de RI a ´t´ faite par Stephen Weiss [100]. En utilisant son d´sambigu¨ e ee e ıs-eur pour r´soudre les sens de cinq mots ambigus extraits ` la main de la collection e ade ADI, Weiss a rapport´ une am´lioration de seulement 1% des performances de e erecherche. Une des recherches les plus approfondies sur l’ambigu¨ e et la RI a ´t´ ıt´ eeeffectu´e par Krovetz et Croft [47] qui ont examin´ manuellement deux collections e etest (CACM et TIME) pour ´tudier l’ampleur de l’ambigu¨ e lexicale dans ces col- e ıt´lections, ainsi que son effet sur la performance de la recherche. Ils ont trouv´ que ces ecollections, mˆme si elles sont relativement petites et sp´cialis´es, contiennent des e e emots utilis´s dans de multiples sens ; ils ont cependant conclu que les performances ede recherche ne sont pas fortement affect´es par l’ambigu¨ e des mots. En effet, les e ıt´documents qui partagent plusieurs mots avec la requˆte tendent ` utiliser ces mots e aavec les mˆmes sens que ceux de la requˆte. Les auteurs pr´sument n´anmoins que e e e ela d´sambigu¨ e ısation des mots est probablement b´n´fique ` la recherche quand les e e acollections contiennent des th`mes divers, et qu’il y a peu de mots en commun entre ele document et la requˆte [47]. e Selon Mark Sanderson [77], les premiers essais ` grande ´chelle d’application d’un a ed´sambigu¨ e ıseur ` un syst`me de RI ont ´t´ r´alis´s par Voorhees [95] et Wallis [99]. a e ee e eVoorhees a construit un d´sambigu¨ e ıseur de mots bas´ sur WordNet [28][60]. Elle a eappliqu´ le d´sambigu¨ e e ıseur aux collections de CACM, de CISI, de CRAN, de MED etde TIME. Les tests men´s sur ces derni`res collections d´sambigu¨ ees ont eu comme e e e ıs´cons´quence paradoxale une baisse dans la performance de la RI. Wallis a employ´ e eun d´sambigu¨ e ıseur en tant qu’´l´ment d’une exp´rience plus raffin´e dans laquelle il ee e e 20

×