Your SlideShare is downloading. ×
  • Like
PhD Defense Presentation - Soutenance de thèse
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

PhD Defense Presentation - Soutenance de thèse

  • 4,178 views
Published

Information retrieval, search, vertical search, domain-specific search, faceted search, ontology, Description Logics, Medical Search, CLEF, precision-oriented search

Information retrieval, search, vertical search, domain-specific search, faceted search, ontology, Description Logics, Medical Search, CLEF, precision-oriented search

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
4,178
On SlideShare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
28
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • L’objectif de la RI est de sélectionner les documents qui traitent le mieux possible du thème de la requ ête Une phase d’indexation => créer une représentation du contenu des documents en se basant sur un langage d’indexation Une phase d’interrogation => créer une représentation du contenu de la requête en se basant sur un langage d’interrogation Une phase de correspondance qui permet de retrouver les documents pertinents pour la requête. cette phase contient une fonction de sélection et une fonction d’ordonnancement des documents en fonction de leur ordre de pertinence par rapport à la requête.
  • Nous nous plaçons dans un contexte de recherche o ù l’utilisateur décrit un besoin précis. Ce contexte est typiquement celui des milieux professionnels… RI dans un milieu professionnel o ù la tâche de RI fait partie de la tâche professionnelle. Durant leur recherche, les professionnels exprimes un besoin à travers une requête précise. « Précise » dénote une requête qui a les deux caractéristiques suivante : Terminologie spécialisée & Structure sémantique complexe Comment satisfaire, à partir de l’information brute, une requ ête Précise formulée par un utilisateur qui s’intéresse à un domaine particulier ?
  • 1er problème : intersection nulle => utiliser des relations, définies à travers des ressources externes 2ème problème : sac de concepts => utiliser les dimensions pour avoir une nouvelle intersection Pour atteindre l’objectif de la RI, les approches existantes s'appuient sur des méthodes purement statistiques basées sur la distribution des mots-clés, pour calculer la similarité entre la requ ête et les documents. la pertinence d’un document par rapport à une requête est calculée en fonction de la similarité vocabulaire et non pas en fonction de la similarité thématique qui existe entre le document et la requête. !!!!!! La compréhension est vue comme un processus d'inférence visant à expliciter tout l'implicite présent d'un texte en le retrouvant à partir des connaissances sémantiques et pragmatiques dont disposait la machine. Cela présupposait une modélisation préalable de ces connaissances. Besoin de RE pour inférer que Philippe Morillon est un général originaire de France Approches de la RI classique : méthodes statistiques RI basé sur les mots-clés Documents et requêtes représentés par une liste de mots; Chercher les documents qui contiennent les mêmes mots que la requête : Approches sac de mots; Pertinence: document partager les m êmes mots avec la requête RI basé sur les concepts documents et requ êtes : représentés dans le même référentiel Partager les m êmes concepts Les relations sémantiques qui peuvent exister entre les concepts ne sont pas exploitées => Fossé entre l’objectif et la méthode : Ne cherche pas les documents ayant une certaine signification. => Hypothèse implicite de la RI classique : Il y a une correspondance stricte entre les mots et les sens.
  • 1er problème : intersection nulle => utiliser des relations, définies à travers des ressources externes 2ème problème : sac de concepts => utiliser les dimensions pour avoir une nouvelle intersection Pour atteindre l’objectif de la RI, les approches existantes s'appuient sur des méthodes purement statistiques basées sur la distribution des mots-clés, pour calculer la similarité entre la requ ête et les documents. la pertinence d’un document par rapport à une requête est calculée en fonction de la similarité vocabulaire et non pas en fonction de la similarité thématique qui existe entre le document et la requête. !!!!!! La compréhension est vue comme un processus d'inférence visant à expliciter tout l'implicite présent d'un texte en le retrouvant à partir des connaissances sémantiques et pragmatiques dont disposait la machine. Cela présupposait une modélisation préalable de ces connaissances. Besoin de RE pour inférer que Philippe Morillon est un général originaire de France Approches de la RI classique : méthodes statistiques RI basé sur les mots-clés Documents et requêtes représentés par une liste de mots; Chercher les documents qui contiennent les mêmes mots que la requête : Approches sac de mots; Pertinence: document partager les m êmes mots avec la requête RI basé sur les concepts documents et requ êtes : représentés dans le même référentiel Partager les m êmes concepts Les relations sémantiques qui peuvent exister entre les concepts ne sont pas exploitées => Fossé entre l’objectif et la méthode : Ne cherche pas les documents ayant une certaine signification. => Hypothèse implicite de la RI classique : Il y a une correspondance stricte entre les mots et les sens.
  • 1er problème : intersection nulle => utiliser des relations, définies à travers des ressources externes 2ème problème : sac de concepts => utiliser les dimensions pour avoir une nouvelle intersection Pour atteindre l’objectif de la RI, les approches existantes s'appuient sur des méthodes purement statistiques basées sur la distribution des mots-clés, pour calculer la similarité entre la requ ête et les documents. la pertinence d’un document par rapport à une requête est calculée en fonction de la similarité vocabulaire et non pas en fonction de la similarité thématique qui existe entre le document et la requête. !!!!!! La compréhension est vue comme un processus d'inférence visant à expliciter tout l'implicite présent d'un texte en le retrouvant à partir des connaissances sémantiques et pragmatiques dont disposait la machine. Cela présupposait une modélisation préalable de ces connaissances. Besoin de RE pour inférer que Philippe Morillon est un général originaire de France Approches de la RI classique : méthodes statistiques RI basé sur les mots-clés Documents et requêtes représentés par une liste de mots; Chercher les documents qui contiennent les mêmes mots que la requête : Approches sac de mots; Pertinence: document partager les m êmes mots avec la requête RI basé sur les concepts documents et requ êtes : représentés dans le même référentiel Partager les m êmes concepts Les relations sémantiques qui peuvent exister entre les concepts ne sont pas exploitées => Fossé entre l’objectif et la méthode : Ne cherche pas les documents ayant une certaine signification. => Hypothèse implicite de la RI classique : Il y a une correspondance stricte entre les mots et les sens.
  • 1er problème : intersection nulle => utiliser des relations, définies à travers des ressources externes 2ème problème : sac de concepts => utiliser les dimensions pour avoir une nouvelle intersection Pour atteindre l’objectif de la RI, les approches existantes s'appuient sur des méthodes purement statistiques basées sur la distribution des mots-clés, pour calculer la similarité entre la requ ête et les documents. la pertinence d’un document par rapport à une requête est calculée en fonction de la similarité vocabulaire et non pas en fonction de la similarité thématique qui existe entre le document et la requête. !!!!!! La compréhension est vue comme un processus d'inférence visant à expliciter tout l'implicite présent d'un texte en le retrouvant à partir des connaissances sémantiques et pragmatiques dont disposait la machine. Cela présupposait une modélisation préalable de ces connaissances. Besoin de RE pour inférer que Philippe Morillon est un général originaire de France Approches de la RI classique : méthodes statistiques RI basé sur les mots-clés Documents et requêtes représentés par une liste de mots; Chercher les documents qui contiennent les mêmes mots que la requête : Approches sac de mots; Pertinence: document partager les m êmes mots avec la requête RI basé sur les concepts documents et requ êtes : représentés dans le même référentiel Partager les m êmes concepts Les relations sémantiques qui peuvent exister entre les concepts ne sont pas exploitées => Fossé entre l’objectif et la méthode : Ne cherche pas les documents ayant une certaine signification. => Hypothèse implicite de la RI classique : Il y a une correspondance stricte entre les mots et les sens.
  • 1er problème : intersection nulle => utiliser des relations, définies à travers des ressources externes 2ème problème : sac de concepts => utiliser les dimensions pour avoir une nouvelle intersection Pour atteindre l’objectif de la RI, les approches existantes s'appuient sur des méthodes purement statistiques basées sur la distribution des mots-clés, pour calculer la similarité entre la requ ête et les documents. la pertinence d’un document par rapport à une requête est calculée en fonction de la similarité vocabulaire et non pas en fonction de la similarité thématique qui existe entre le document et la requête. !!!!!! La compréhension est vue comme un processus d'inférence visant à expliciter tout l'implicite présent d'un texte en le retrouvant à partir des connaissances sémantiques et pragmatiques dont disposait la machine. Cela présupposait une modélisation préalable de ces connaissances. Besoin de RE pour inférer que Philippe Morillon est un général originaire de France Approches de la RI classique : méthodes statistiques RI basé sur les mots-clés Documents et requêtes représentés par une liste de mots; Chercher les documents qui contiennent les mêmes mots que la requête : Approches sac de mots; Pertinence: document partager les m êmes mots avec la requête RI basé sur les concepts documents et requ êtes : représentés dans le même référentiel Partager les m êmes concepts Les relations sémantiques qui peuvent exister entre les concepts ne sont pas exploitées => Fossé entre l’objectif et la méthode : Ne cherche pas les documents ayant une certaine signification. => Hypothèse implicite de la RI classique : Il y a une correspondance stricte entre les mots et les sens.
  • Formalisme de représentation de connaissances pour représenter plus de sémantique lors de l’indexation Avoir une représentation uniforme des documents, requ êtes, et de la ressource externe Ceci peu être atteint en utilisant un formalisme de représentation de connaissances permettant de représenter les documents, requêtes, et les connaissances du système Ce formalisme doit proposer une opération de comparaison jouant le rôle de la fonction de correspondance Doit prendre en compte les exigences des utilisateurs en termes d’opérateurs (booléens, quantificateur, jauge, etc.)
  • Expansion  "aveugle"[ Voorhees94, Mihalcea00, Baziz et al.03] -- Expansion "prudente" [Qiu et Frei93, Baziz05] ++
  • 1 - Utilisation des RE pour la RI Trois facteurs: Qualité de la RE Qualité du désambigu ïseur Modèle RI (comment interpréter le contenu sémantique du document/requête? comment calculer la correspondance) Notre contribution se situe au niveau du troisième facteur 2 - Utilisation des dimensions Principalement des interfaces Construction de dimensions Notre contribution: langage de document/requ ête expressif
  • Besoin des ressources externes Souhaitable d’avoir une représentation uniforme des documents, requ êtes, et la ressource externe Ceci peut être atteint en utilisant un formalisme de représentation de connaissances commun à ces trois éléments Doit proposer une opération de comparaison jouant le r ôle de la fonction de correspondance Doit prendre en compte les exigences des utilisateurs en termes d’opérateurs (booléens, quantificateurs, etc.)
  • Il existe plusieurs formalismes tels que les aborescences sémantiques et les Graphes conceptuels. Pourquoi pas les GC ? les quantificateurs sont très difficiles à implémenter dans les GC - les GC sont très difficiles à construire à partir du texte; - l’interprétation ensembliste des LD est très simple à implmenter et => moins de complexité que les GC - Le méchanisme de maching est plus simple dans les DL que dans les GC L’ALCQ est une logique parmi d’autres. Nous l’avons choisi parce quelle satisfait nos besoins. Former des concepts/r ôles  utiliser des constructeurs conjonction ( ⊓ ), disjonction ( ⊔ ) ; quantificateurs : existentiel ( ∃ R.C), universel ( ∀ R.C) ; etc. les personnes originaires de France : Personne ⊓ ∃ originaire_de . France toutes les personnes dont les enfants sont des filles : Personne ⊓ ∀ a-enfant. Féminin les mères qui ont au moins trois enfants : Femme ⊓ ≥ 3a - enfant .Personne Les DLs adoptent toutes une sémantique reposant sur une interprétation ensembliste des termes. Ce procédé est connu sous l’appellation de sémantique dénotationnelle (denotational semantics). Ils introduisent ainsi une interprétation I = (  I , . I ) qui consiste en un ensemble non vide  I appelé le domaine de discours de I , et en une fonction . I qui associe pour chaque nom de concept C un ensemble C I ⊆  I , et pour chaque nom de rôle R , une relation binaire R I ⊆  I x  I . Une interprétation I satisfait le GCI C ⊑ D si C I ⊆ D I . I satisfait la T-Box T , si I satisfait tous les GCIs dans T . Dans ce cas, I est appelé modèle de T . Un élément d  C I est appelé une instance de C . Pour deux individus d et e , si ( d, e )  R I , alors e est appelé un R-successeur de d . DLs ~ sémantique reposant sur une interprétation ensembliste ( sémantique dénotationnelle ) Une interprétation I = (  I , . I )  I : domaine de discours de I . I : une fonction assignant Concept C --> ensemble C I ⊆  I ; R ôle R --> relation binaire R I ⊆  I x  I ex. Général ⊓ ∃ originaire_de . France => Général I  originaire_de I . France I Général I = { c   I | c ⊑ Général} originaire_de I . France I = { c   I | ( c, France)  originaire_de I } I satisfait C ⊑ D si C I ⊆ D I I est un modèle de T si I satisfait tous les axiomes de la T-Box T
  • DL & RI Corpus = sous-ensemble du domaine de discours document/requ ête = concept Un document d ( q ) sera représenté dans un domaine de discours K par son index dI ( qI ) qui est une expression ALCQ . dI est une abstraction (représentation) d’un ensemble de documents qui ont le même contenu Les documents physiques représentent alors les instances de dI Conformément à la terminologie des DL , la correspondance entre une requête q et un document d se calcule par la relation de subsomption: Le concept dI est subsumé par le concept qI : dI ⊑ K qI Ainsi, le SRI extrait les documents dont l’index est subsumé par le concept qI .
  • Notre modèle est basé sur l’utilisateur. Pour cette raison, il faut prendre en compte ses besoin d’information lors m ême de l’indexation.
  • Re-parler de la définition des dimensions et l’idée derrière leur utilisation !!!
  • Afin de représenter la base des documents avec des éléments de dimensions, nous utilisons la T-Box T où chaque document sera représenté par un concept qui représente la conjonction d’un ensemble d’éléments de dimensions. Nous proposons le rôle indexé_par qui permet d’associer un élément de dimension à un document.
  • Opérateurs d’interrogation booléen : conjonction, disjonction, négation obligatoire, optionnel, priorité quantificateurs
  • expliquer l'algorithme de calcul de subsomption, comment il marche, sa complexité, les problèmes que ça pose, quelles sont les limites et qui est-ce qu'il faut faire pour que ça marche sur une grande échelle. Illustrer son fonctionnement sur cette exemple.
  • expliquer l'algorithme de calcul de subsomption, comment il marche, sa complexité, les problèmes que ça pose, quelles sont les limites et qui est-ce qu'il faut faire pour que ça marche sur une grande échelle. Illustrer son fonctionnement sur cette exemple.
  • expliquer l'algorithme de calcul de subsomption, comment il marche, sa complexité, les problèmes que ça pose, quelles sont les limites et qui est-ce qu'il faut faire pour que ça marche sur une grande échelle. Illustrer son fonctionnement sur cette exemple.
  • expliquer l'algorithme de calcul de subsomption, comment il marche, sa complexité, les problèmes que ça pose, quelles sont les limites et qui est-ce qu'il faut faire pour que ça marche sur une grande échelle. Illustrer son fonctionnement sur cette exemple.
  • Les poids des éléments de dimension dans doc  : plus le poids des éléments de dimension partagés par q et doc est grand, plus la valeur de pertinence de doc est élevée par rapport à q  ; Les poids des éléments de dimension dans q  : plus doc contient des éléments de dimension dont le poids est élevé dans q , plus la valeur de pertinence de doc est grande ; Les valeurs de priorité des éléments de dimension dans q  : un document contenant un élément de dimension dont la valeur de priorité est égale à  est plus pertinent qu’un document contenant un élément de dimension dont la valeur de priorité est égale à  +1.
  • Ça ne remplace pas le modèle vectoriel!
  • On ne peut pas comparer nos résultats avec ceux des participants à CLEF vu que l’on travaille seulement sur la partie en anglais, en faisant l’indexation conceptuelle
  • Le faite de structurer une ressource externe en dimensions permet d’enrichir son contenu en créant des catégories sémantiques de concepts au sein d’un domaine. ceci permet de mettre en exergue les éléments pertinents dans un domaine particulier Indexation: structurer le contenu de document et permettre ainsi d’indexer le document en extrayant les éléments pertinents pour l’utilisateur Interrogation: ca permet de structure le contenu d’une requ ête ce qui permet d’extraire les éléments nécessaires à sa compréhiension et favoriser ainsi une interprétation précise de son contenu sémantique Un langage de requêtes expressif permettant à l’utilisateur d’exprimer des requêtes précises. utiliser des dimensions, des concepts, des relations, et des opérateurs pour détailler davantage son besoin en information. Afin de définir notre modèle, nous avons choisi un formalisme de représentation de connaissances adéquat qui permet la représentation précise des documents et des requêtes. Il s’agit de la logique descriptive. C’est une solution parmi d’autres, comme elle a ses avantages, elle a aussi ses limites
  • Fonction de correspondance Correspondance entre un document et une requ ête qui ne partagent pas les mêmes termes ++ Performances ~ dépendent de la qualité de la conception de la ressource externe La subsomption n’est pas suffisante ex. fracture de la jambe vs. fracture de la hanche => Définir des propriétés transitives edim 1 ≡ Fracture ⊓ ∃ affect. ∃ partie_de. Jambe edim 2 ≡ Fracture ⊓ ∃ affect. ∃ partie_de. Hanche Si Partie_de est transitive et Hanche ≡  "… ⊓ partie_de .Jambe" => edim 1 ⊑ edim 2 Flexibilité : utiliser n’importe quelle relation … mais La négation ≠ absence => indexer explicitement la négation
  • Éventuellement donner quelques pistes : comment construire les éléments de dimensions Fonction d’ordonnancement Correspondance entre un document et une requ ête qui ne partagent pas les mêmes concepts => RSV nulle ex. Général français <=> Philippe Morillon Est-ce que l’ordonnancement est indispensable dans un contexte de RI précise ? La correspondance est censée ne retourner que des documents très pertinents Est-ce que la notion de pertinence est la même que celle qui est utilisée dans la RI générale ? ex. "la liste des joueurs de l’équipe de Rugby de France" Définir la notion de pertinence dans un contexte de RI précise Collaborer avec des professionnels d’un domaine particulier

Transcript

  • 1. Un modèle de Recherche d’Information orienté précision fondé sur les dimensions de domaine Directeurs de thèse : Jean-Pierre CHEVALLET, UJF Yves CHIARAMELLA, UJF Gilles FALQUET, UniGe Saïd Radhouani 18 juillet 2008
  • 2. 18 juillet 2008 © S. Radhouani Langage d’interrogation Langage d’indexation Documents ordonnés Contexte Correspondance Objectif : Sélectionner les documents pertinents qui traitent du thème de la requête. Indexation Interrogation Requ ête ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- --------
  • 3. Contexte
    • Contexte de recherche : utilisateur décrit un besoin précis
      • Milieux professionnels (médecine, physique, etc.)
    • Requête précise
      • Terminologie spécifique
        • ex. "Un compte-rendu sur le type de traitements à effectuer en cas d’un cancer du sein de stade M0 "
      • Structure sémantique complexe
        • Relations sémantiques
        • ex. "Les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans"
        • Opérateurs
        • ex. "Des images de la peau de la main sans aucune pathologie"
        • Quantificateurs
        • ex. "Une image qui contient Zinedine Zidane tout seul "
    18 juillet 2008 © S. Radhouani
  • 4. Problématique 18 juillet 2008 © S. Radhouani … pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie … Document Requête [CLEF05] Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans.
  • 5. Problématique 18 juillet 2008 © S. Radhouani … pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie … Document Requête [CLEF05] Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans. Philippe Morillon Ex-Yougoslavie Zone de sécurité Serbie Slovénie Guerre civile d’Ex-Yougoslavie Général Français Zone de sécurité Balkans Conflit des Balkans
  • 6. Problématique 18 juillet 2008 © S. Radhouani … pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie … Document Requête [CLEF05] Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans. Le SRI a besoin de connaissances, autres que celles présentes dans le texte . Y a-t-il des éléments, autres que les descripteurs , qu’un document doit partager avec la requ ête pour qu’il soit considéré pertinent ? Philippe Morillon Ex-Yougoslavie Zone de sécurité Serbie Slovénie Guerre civile d’Ex-Yougoslavie Général Français Zone de sécurité Balkans Conflit des Balkans
  • 7. Problématique 18 juillet 2008 © S. Radhouani … pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie … Document Requête [CLEF05] Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans. Conflit des Balkans est_un créé_pendant Balkans partie_de Zone de sécurité Ex-Yougoslavie Général est_un originaire_de Philippe Morillon France a_lieu_à Guerre civile d’Ex-Yougoslavie Philippe Morillon Ex-Yougoslavie Zone de sécurité Serbie Slovénie Guerre civile d’Ex-Yougoslavie Général Français Zone de sécurité Balkans Conflit des Balkans
  • 8. Problématique 18 juillet 2008 © S. Radhouani … pendant la guerre civile qui a eu lieu en ex-Yougoslavie, les Nations Unies ont chargé Philippe Morillon de créer une zone de sécurité. Celle-ci couvre la Serbie, la Slovénie … Document Requête [CLEF05] Donne-moi les documents qui parlent du général français responsable de la création de la zone de sécurité pendant le conflit des Balkans. Personne Lieu Géographique Evénement Conflit des Balkans est_un créé_pendant Balkans partie_de Zone de sécurité Ex-Yougoslavie Général est_un originaire_de Philippe Morillon France a_lieu_à Guerre civile d’Ex-Yougoslavie Guerre civile d’Ex-Yougoslavie Conflit des Balkans Philippe Morillon Ex-Yougoslavie Zone de sécurité Serbie Slovénie Général Français Zone de sécurité Balkans
  • 9. Vers une RI basée sur les dimensions 18 juillet 2008 © S. Radhouani
    • ex.
      • Politique : personne , lieu géographique , époque , événement , etc.
      • Médecine : anatomie , pathologie , stade de la maladie , etc.
    • Idée de notre approche
      • Domaine : un thème peut être développé en faisant référence à un ensemble de dimensions de ce domaine
      • Auteur  domaine  thème  dimensions  termes  document
      • Médecin  médecine  image médicale  anatomie  fémur  compte rendu
    Une dimension d’un domaine est un concept utilisé pour exprimer des thèmes dans ce domaine
  • 10. Objectifs et besoins
    • Résoudre des requ êtes précises
      • Interpréter le contenu sémantique véhiculé par la structure extraite des documents et des requ êtes
      • Tenir compte de la complexité de la structure sémantique des requêtes
      • Tenir compte des dimensions de domaine
    • Ressources externes (ontologie, thésaurus, taxonomie, etc.)
      • Définition des dimensions
      • Terminologie spécifique
      • Relations sémantiques
    • Langage de document expressif
      • Indexation précise du contenu sémantique (dimensions, relations)
    • Langage de requête expressif
      • Expression de besoin précis (opérateurs, relations, etc.)
    18 juillet 2008 © S. Radhouani
  • 11. Plan
    • Introduction
    • État de l’art : ressources externes & dimensions
      • Indexation
      • Interrogation
      • Dimensions
      • Synthèse
    • Modèle de RI fondé sur les dimensions de domaine
      • Formalisme de représentation de connaissances
      • Modèle de connaissances
      • Unité d’indexation
      • Modèle de document
      • Modèle de requ ête
    • Expérimentations
    • Conclusion
    18 juillet 2008 © S. Radhouani
  • 12. 18 juillet 2008 © S. Radhouani Langage d’interrogation Langage d’indexation Documents ordonnés Ressources externes & dimensions Correspondance Indexation Interrogation Requ ête
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Indexation
    • Interrogation
    • Dimensions
    • Synthèse
    ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- Ressources externes
  • 13. Indexation conceptuelle
    • Représentation par des concepts au lieu de mots ambigus [Baziz05, Biemann05, Vallet05, Maisonnasse08]
      • Représentation : sac de concepts
      • Correspondance : partage de concepts entre document et requ ête
      • Relations sémantiques non exploitées
      • Utilisation des relations seulement pour la désambigu ïsation [ Baziz05]
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Indexation
    • Interrogation
    • Dimensions
    • Synthèse
    Un concept est un objet mental défini comme une abstraction généralisée à partir de propriétés communes à des objets concrets. Général C01 Officier de l’armée C02 Chef d’un ordre religieux C03 Ce qui concerne le tout
  • 14. 18 juillet 2008 © S. Radhouani Langage d’interrogation Langage d’indexation Documents ordonnés Ressources externes & dimensions Correspondance Indexation Interrogation Requ ête
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Indexation
    • Interrogation
    • Dimensions
    • Synthèse
    ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- Ressources externes
  • 15. Expansion de requ êtes
    • Utiliser les relations  enrichir le contenu de la requ ête [ Voorhees94, Mihalcea00, Baziz et al.03]
      • Représentation de la requête étendue : sac de concepts
      • Correspondance : partage de concepts entre document et requ ête étendue
      • Utilisation des relations seulement pour l’expansion
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Indexation
    • Interrogation
    • Dimensions
    • Synthèse
    Relations Exemples Généralisation/spécialisation { voiture } est_un {véhicule à moteur} Composition { voiture } est_composé_de {{porte}, {moteur}}
  • 16. 18 juillet 2008 © S. Radhouani Langage d’interrogation Langage d’indexation Documents ordonnés Ressources externes & dimensions Correspondance Indexation Interrogation Requ ête
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Indexation
    • Interrogation
    • Dimensions
    • Synthèse
    ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- Ressources externes
  • 17. RI & dimensions de domaine
    • Paradigme de recherche multi-facette [S. R. Ranganathan 1931]
    • Interface pour la navigation dans une collection [Yee 03, Hearst 06, M äkelä 06]
    • Construction manuelle des facettes/dimensions : hiérarchies de concepts
    • Pas d’évaluation en termes de performance de recherche
    • Tests d’utilisabilité : approches prometteuses mais limitées à petite échelle [Yee 03, Diederich 06]
      • Annotée manuellement
      • Statique, de petite taille
    • Difficulté à résoudre des requ êtes précises
      • Structure sémantique complexe (opérateurs)
      • Terminologie spécialisée : navigation profonde dans les hiérarchies de concepts  lourde surcharge cognitive
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Indexation
    • Interrogation
    • Dimensions
    • Synthèse
  • 18. Synthèse
    • Approches existantes : insuffisantes devant les exigences présentées
    • Résoudre des requ êtes précises
      • Interpréter la sémantique véhiculée par la structure extraite des documents et des requ êtes
        • Tenir compte des dimensions
        • Utiliser les relations sémantiques
    • Besoin de ressources externes
      • Représentation uniforme des documents, requ êtes, et ressources externes
      • => Formalisme de représentation de connaissances commun à ces trois éléments
        • Opération de comparaison  fonction de correspondance
        • Prendre en compte les exigences des utilisateurs en termes d’opérateurs (booléens, quantificateurs, etc.)
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Indexation
    • Interrogation
    • Dimensions
    • Synthèse
  • 19. Plan
    • Introduction
    • État de l’art : ressources externes & dimensions
      • Indexation
      • Interrogation
      • Dimensions
      • Synthèse
    • Modèle de RI fondé sur les dimensions de domaine
      • Formalisme de représentation de connaissances
      • Modèle de connaissances
      • Unité d’indexation
      • Modèle de document
      • Modèle de requ ête
    • Expérimentations
    • Conclusion
    18 juillet 2008 © S. Radhouani
  • 20. La logique descriptive
    • Logique Descriptive (DL) = Logique Terminologique
    • ALCQ : Attribute Language with Complements and Qualified number restriction
      • Modéliser les connaissances d’un domaine (concepts et relations )
      • Satisfait les exigences de notre modèle (opérateurs : ⊓, ⊔ ; quantificateurs : ∃, ≥)
    • T(erminological)-Box : ensemble d’axiomes terminologiques de la forme
      • C ≡ D ou
      • C ⊑ D
    • Algorithme de calcul de subsomption : déduire des connaissances implicites
      • Général ⊑ Personne
      • Philippe Morillon ⊑ Général
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
    => Philippe Morillon ⊑ Personne
  • 21. Logique descriptive & RI 18 juillet 2008 © S. Radhouani q  : une requête doc  : un document DL RI
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
    correspondance ⊑ T Physical query Physical query Physical query Physical query Physical query Physical query Physical query R doc R q Physical document Physical document Physical document Physical document Physical document Physical document Physical document
  • 22. 18 juillet 2008 © S. Radhouani Langage d’interrogation Langage d’indexation Documents ordonnés Modèle de connaissances Correspondance Indexation Interrogation Requ ête
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    Ressources externes
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
    ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- --------
  • 23. Modèle de connaissances
    • Ressource externe : K = ( C , R , Dim , T )
      • Concepts : C = { c 1 , …, c nc }
      • R ôles : R = { R 1 , …, R nr }
      • Dimensions : Dim = { dim 1 , …, dim nd }
        • dim i = ( rac_dim i , C i )
          • rac_dim i  C : racine de la hiérarchie définissant dim i
          • C i = { c  C | c ⊑ rac_dim i }
      • T-Box : T (connaissances du domaine)
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
  • 24. Modèle de connaissances : exemple
    • Événement ⊑ T
    • Conflit des Balkans ⊑ Evénement
    • Guerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans
    • Conflit des Balkans ≡ ∃ a_lieu_à .Balkans
    • Lieu géographique ⊑ T
    • France ⊑ Lieu géographique
    • Balkans ⊑ Lieu géographique
    • Ex-Yougoslavie ⊑ Lieu géographique
    • Ex-Yougoslavie ≡ ∃ partie_de .Balkans
    • Zone de sécurité ⊑ Lieu géographique
    • Serbie ⊑ Ex-Yougoslavie
    • Slovénie ⊑ Ex-Yougoslavie
    • Zone de sécurité ≡ ∃ créé_pendant .Conflit des Balkans
    • Personne ⊑ T
    • Général ⊑ Personne
    • Philippe Morillon ⊑ Général
    • Philippe Morillon ≡ ∃ originaire_de .France
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    C = {Evénement, Personne, etc.} R = { originaire_de , partie_de , etc.} Dim = { Événement , Lieu géographique, Personne } dim Personne = (Personne, {Général, Philippe Morillon, …}) T-Box
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
  • 25. Unité d’indexation
    • Produire une représentation précise du contenu sémantique des documents (requ êtes)
    • Interpréter la sémantique véhiculée par la structure extraite des documents (requ êtes)
      • Se détacher de l’aspect sac de concepts
      • Utiliser les dimensions , concepts , et relations
    • ex. Interprétation de "Général français"
      • élément de la dimension "Personne"
      • est "Général"
      • originaire de "France"
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
  • 26. Unité d’indexation : élément de dimension
    • Tout concept d’une dimension est susceptible de constituer un élément de cette dimension lorsqu’il est utilisé dans un document ou une requ ête
    18 juillet 2008 © S. Radhouani
      • c idf  dim : identifier edim
      • c des  dim : décrire edim
      • décrit_par : relation générique pour la modélisation
    • ex. edim ≡ Général ⊓ ∃ originaire_de . France
    Un élément d’une dimension dim est une expression ALCQ qui cherche à correspondre le plus précisément possible au concept de dim auquel il est fait référence dans un document ou une requ ête.
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    edim ≡ c idf_1 ⊓ … ⊓ c idf_n ⊓ ∃ décrit_par . c des_1 ⊓ … ⊓ ∃ décrit_par . c des_m
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
  • 27. 18 juillet 2008 © S. Radhouani Langage d’interrogation Langage d’indexation Documents ordonnés Représentation des documents Correspondance Indexation Interrogation Requ ête
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
    ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- Ressources externes
  • 28. Représentation des documents
    • document : doc  représenté par des éléments de dimension
      • R doc : expression ALCQ = conjonction d’éléments de dimension
      • indexé_par : r ôle pour associer un élément de dimension à un document
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Un élément de dimension peut être pondéré (ne fait pas partie de la DL)
    • R doc est ajouté à la T-Box
    R doc ≡ ∃ indexé_par . edim 1 ⊓ … ⊓ ∃ indexé_par . edim n
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
  • 29. Exemple
    • edim 1 ≡ Philippe Morillon
    • edim 2 ≡ Zone_de_Sécurité ⊓ ∃ créé_pendant .Guerre civile d’Ex-Yougoslavie
    • edim 3 ≡ Ex-Yougoslavie
    • edim 4 ≡ Serbie
    • edim 5 ≡ Slovénie
    • edim 6 ≡ Guerre civile d’Ex-Yougoslavie
    • R doc ≡ ∃ indexé_par . edim 1 ⊓ ∃ indexé_par . edim 2 ⊓ ∃ indexé_par . edim 3 ⊓ ∃ indexé_par . edim 4 ⊓ ∃ indexé_par . edim 5 ⊓ ∃ indexé_par . edim 6
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
  • 30. Exemple 18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
    T-Box R doc T Événement ⊑ T Conflit des Balkans ⊑ Evénement Guerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans Conflit des Balkans ≡ ∃ a_lieu_à .Balkans Lieu géographique ⊑ T France ⊑ Lieu géographique Balkans ⊑ Lieu géographique Ex-Yougoslavie ⊑ Lieu géographique Ex-Yougoslavie ≡ ∃ partie_de .Balkans Zone de sécurité ⊑ Lieu géographique Serbie ⊑ Ex-Yougoslavie Slovénie ⊑ Ex-Yougoslavie Zone de sécurité ≡ ∃ créé_pendant .Conflit des Balkans Personne ⊑ T Général ⊑ Personne Philippe Morillon ⊑ Général Philippe Morillon ≡ ∃ originaire_de .France
  • 31. 18 juillet 2008 © S. Radhouani Langage d’interrogation Langage d’indexation Documents ordonnés Représentation des requ êtes Correspondance Indexation Interrogation Requ ête
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
    ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- Ressources externes
  • 32. Représentation des requ êtes
    • requ ête : q  représentée par des éléments de dimension
      • R q : expression ALCQ = combinaison d’éléments de dimensions et d’ opérateurs
      • indexé_par : r ôle pour associer un élément de dimension à une requ ête
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Un élément de dimension peut être pondéré (ne fait pas partie de la DL)
    • R q est ajouté à la T-Box
    R q ≡ ∃ indexé_par . edim 1 ⊓ … ⊓ ∃ indexé_par . edim n
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
  • 33. Exemple
    • edim 7 ≡ Général ⊓ ∃ orginaire_de .France
    • edim 8 ≡ Zone de Sécurité ⊓ ∃ créé_pendant .Conflit des Balkans
    • edim 9 ≡ Conflit des Balkans
    • R q ≡ ∃ indexé_par . edim 7 ⊓ ∃ indexé_par . edim 8 ⊓ ∃ indexé_par . edim 9
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
  • 34. Exemple 18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
    T-Box R doc T Événement ⊑ T Conflit des Balkans ⊑ Evénement Guerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans Conflit des Balkans ≡ ∃ a_lieu_à .Balkans Lieu géographique ⊑ T France ⊑ Lieu géographique Balkans ⊑ Lieu géographique Ex-Yougoslavie ⊑ Lieu géographique Ex-Yougoslavie ≡ ∃ partie_de .Balkans Zone de sécurité ⊑ Lieu géographique Serbie ⊑ Ex-Yougoslavie Slovénie ⊑ Ex-Yougoslavie Zone de sécurité ≡ ∃ créé_pendant .Conflit des Balkans Personne ⊑ T Général ⊑ Personne Philippe Morillon ⊑ Général Philippe Morillon ≡ ∃ originaire_de .France R q
  • 35. 18 juillet 2008 © S. Radhouani Langage d’interrogation Langage d’indexation Documents ordonnés Correspondance Correspondance Indexation Interrogation Requ ête
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
    ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- ---- --- -------- ----- -------- Ressources externes
  • 36. La fonction de correspondance f Sel
    • f Sel ( doc , q ) : respecter les contraintes imposées par l’utilisateur
      • Calcul de la subsomption dans la T-Box
      • D pert = { doc | R doc ⊑ T R q }
    18 juillet 2008 © S. Radhouani q  : une requête R doc doc  : un document R q
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
    T-Box correspondance ⊑ T Physical query Physical query Physical query Physical query Physical query Physical query Physical query Physical document Physical document Physical document Physical document Physical document Physical document Physical document Physical document
  • 37. La fonction de correspondance f Sel 18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
    T-Box
        • Événement ⊑ T
        • Conflit des Balkans ⊑ Evénement
        • Guerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans
        • Conflit des Balkans ≡ ∃ a_lieu_à .Balkans
        • Lieu géographique ⊑ T
        • France ⊑ Lieu géographique
        • Balkans ⊑ Lieu géographique
        • Ex-Yougoslavie ⊑ Lieu géographique
        • Ex-Yougoslavie ≡ ∃ partie_de .Balkans
        • Zone de sécurité ⊑ Lieu géographique
        • Serbie ⊑ Ex-Yougoslavie
        • Slovénie ⊑ Ex-Yougoslavie
        • Zone de sécurité ≡ ∃ créé_pendant .Conflit des Balkans
        • Personne ⊑ T
        • Général ⊑ Personne
        • Philippe Morillon ⊑ Général
        • Philippe Morillon ≡ ∃ originaire_de .France
    R doc R q
  • 38. La fonction de correspondance f Sel 18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
    T-Box R doc R q Philippe Morillon ⊑ Général Zone de sécurité ≡ ∃ créé_pendant .Conflit des Balkans Philippe Morillon ≡ ∃ originaire_de .France Guerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans Philippe Morillon Zone de sécurité ⊓ ∃ créé_pendant .Guerre civile d’Ex-Yougoslavie Général ⊓ ∃ originaire_de .France Conflit des Balkans Guerre civile d’Ex-Yougoslavie Zone de sécurité ⊓ ∃ créé_pendant .Conflit des Balkans
  • 39. La fonction de correspondance f Sel 18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
    T-Box R doc R q Philippe Morillon ⊑ Général Zone de sécurité ≡ ∃ créé_pendant .Conflit des Balkans Philippe Morillon ≡ ∃ originaire_de .France Guerre civile d’Ex-Yougoslavie ⊑ Conflit des Balkans Philippe Morillon Zone de sécurité ⊓ ∃ créé_pendant .Guerre civile d’Ex-Yougoslavie Général ⊓ ∃ originaire_de .France Conflit des Balkans Guerre civile d’Ex-Yougoslavie Zone de sécurité ⊓ ∃ créé_pendant .Conflit des Balkans R doc ⊑ T R q
  • 40. La fonction d’ordonnancement f Ord
    • f Ord ( doc , q ) : classer les documents dans leur ordre de pertinence par rapport à q
      • Les poids des éléments de dimension dans doc
      • Les poids des éléments de dimension dans q
      • Les valeurs de priorité des éléments de dimension dans q
    • N’est pas modélisée en DL
    • Utiliser une métrique existante
      • Notre expérience : modèle vectoriel
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Formalisme
    • Connaissances
    • Unité d’indexation
    • Document
    • Req uête
  • 41. Plan
    • Introduction
    • État de l’art : ressources externes & dimensions
      • Indexation
      • Interrogation
      • Dimensions
      • Synthèse
    • Modèle de RI fondé sur les dimensions de domaine
      • Formalisme de représentation de connaissances
      • Modèle de connaissances
      • Unité d’indexation
      • Modèle de document
      • Modèle de requ ête
    • Expérimentations
    • Conclusion
    18 juillet 2008 © S. Radhouani
  • 42. Expériences
    • Résoudre des requêtes précises  évaluer l’apport de l’usage des dimensions
      • Performances de recherche
      • Résultat de référence : modèle vectoriel sans dimensions
    • Mise en œuvre du modèle basé sur la DL
      • Tester la faisabilité de notre approche
      • Évaluer les limites du modèle
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Objectifs
    • Données
    • Réalisations
    • Résultats
  • 43. Données et ressources
    • Collection ImageCLEFmed-2005
      • 50,026 documents (Anglais, Français, Allemand)
      • 25 requ êtes
    • ex. "show me x-ray images with fracture of the femur"
    • Dimensions : Modalité, Pathologie, Anatomie
    • Ressource externe : UMLS
      • Meta thésaurus (≥ 1 million d’entrées)
      • Réseau sémantique (135 Types sémantiques)
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Objectifs
    • Données
    • Réalisations
    • Résultats
  • 44. Indexation
    • Construction manuelle des dimensions
      • Anatomie : "Anatomical Structure" + "Body System" + "Body Space or Junction" + "Body Location or Region" ;
      • Pathologie : "Pathologic Function" + "Finding" + "Injury or Poisoning" ;
      • Modalité : "Diagnostic Procedure" + "Manufactured Object".
    • Indexation conceptuelle
      • Outil adapté aux documents en anglais
    • Identification des éléments de dimension
      • Défini par un concept
      • Si c  dim , alors c est un élément de la dimension dim
    • Pondération des éléments de dimension
      • Modèle vectoriel : variante du tf*idf (LTC)
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Objectifs
    • Données
    • Réalisations
    • Résultats
  • 45. Interrogation
    • T1 : Un document est considéré pertinent s'il contient les trois dimensions présentes dans la requ ê te
    • Anatomie ⊓ Pathologie ⊓ Modalité
    • T2 : Un document est considéré pertinent s'il contient au moins une des dimensions de la requ ê te
    • Anatomie ⊔ Pathologie ⊔ Modalité
    • T3 : Un document pertinent doit contenir l'anatomie, sinon la pathologie, sinon la modalité
    • Anatomie Priorité=1 Pathologie Priorité=2 Modalité Priorité=3
    • T4 : Un document est considéré pertinent s'il contient les dimensions anatomie et pathologie
    • (Anatomie ⊓ Pathologie) ⊔ Modalité
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Objectifs
    • Données
    • Réalisations
    • Résultats
  • 46. Apport de l’usage des dimensions 18 juillet 2008 © S. Radhouani % à 10 docs % à 5 docs % Moyenne Précision Test +32.78 0.3240 +29.41 0.3520 +8.82 0.1579 T3 +60.65 0.3920 +44.11 0.3920 +20.05 0.1742 T4 +27.86 0.3120 +23.52 0.3360 +5.72 0.1534 T2 +36.59 0.3333 +29.55 0.3524 -1.61 0.1428 T1
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Objectifs
    • Données
    • Réalisations
    • Résultats
    • Baseline : modèle vectoriel
      • Variante du tf*idf (LTC)
      • Sac de concepts
    • Notre approche
    Précision Test Moyenne à 5 docs à 10 docs Baseline 0.1451 0.2720 0.2440
  • 47. Mise en œuvre du modèle
    • Identification des éléments de dimension
      • document  Traitement Automatique des Langues
      • requête  interface
    • Construction de la T-Box
      • être humain  DL vs. Machine  langage adéquat (OWL)
      • outil basé sur des heuristiques
    • Fonction de Correspondance  calcul de la subsomption
      • raisonneur existant
        • Pellet [Sirin et al. 04]
    • Ordonnancement des documents
      • modèle vectoriel
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Objectifs
    • Données
    • Réalisations
    • Résultats
  • 48. Plan
    • Introduction
    • État de l’art : ressources externes & dimensions
      • Indexation
      • Interrogation
      • Dimensions
      • Synthèse
    • Modèle de RI fondé sur les dimensions de domaine
      • Formalisme de représentation de connaissances
      • Modèle de connaissances
      • Unité d’indexation
      • Modèle de document
      • Modèle de requ ête
    • Expérimentations
    • Conclusion
    18 juillet 2008 © S. Radhouani
  • 49. Conclusion
    • Modèle de RI capable de résoudre des requêtes précises
      • Fondé sur les dimensions de domaine
        • Mettre en exergue les éléments pertinents dans un domaine particulier
      • Nouvelle unité d’indexation : l’élément de dimension
        • Définie par des dimensions, concepts, et relations
      • Langages de document et de requ ête expressifs
        • Représenter la sémantique véhiculée par la structure extraite des documents (requ êtes)
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Bilan
    • Perspectives
  • 50. Conclusion
    • Modélisation à base de la Logique Descriptive
      • Représentation uniforme des documents, requ êtes, et connaissances
      • Fonction de correspondance
        • Correspondance entre un document et une requ ête qui ne partagent pas les mêmes termes
        • La subsomption n’est pas suffisante  définir des propriétés transitives
        • Flexibilité : utiliser n’importe quelle relation … mais
    • Résultats expérimentaux
      • Prise en compte des dimensions  améliore les performances de recherche
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Bilan
    • Perspectives
  • 51. Perspectives
    • Quantifier l’apport de l’approche  mise en œuvre de l’intégralité du modèle
      • Extraction des éléments de dimension
        • Traitement automatique de la langue
    • Fonction d'ordonnancement adéquate au contexte de RI orientée précision
      • Étudier la notion de pertinence
        • Collaboration avec des utilisateurs professionnels (ex. médecins)
      • Intégrer les pondérations dans le modèle
    • Construction automatique des dimensions [Radhouani 07]
      • Évaluation [Dakka et al.06, Stoica et al.06]
    • Développement d’une interface interactive
      • Test d’utilisabilité
    18 juillet 2008 © S. Radhouani
    • Introduction
    • Etat de l’art
    • Modèle
    • Expérimentations
    • Conclusions
    • Bilan
    • Perspectives
  • 52. Un modèle de Recherche d’Information orienté précision fondé sur les dimensions de domaine Directeurs de thèse : Jean-Pierre CHEVALLET, UJF Yves CHIARAMELLA, UJF Gilles FALQUET, UniGe Saïd Radhouani 18 juillet 2008