Donner du sens à des documents semi-structurés : De la construction dontologiesà lannotation sémantique        Nathalie Au...
1 - Donner du sens à desdocuments pour des logicielsQu’est que cela signifie ?… à l’heure du web sémantique… avec des onto...
Donner du sens à des documents numériques   Rendre accessible à un programme leur “contenu”   … les informations, les co...
… à l’heure du web sémantique   Normaliser les tags et faire référence à une ontologie pour    échanger, comparer, mettre...
Comment produire les annotations ?     Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Ausse...
Comment produire les annotations ?Indexation classique3rd European Semantic Web Conference (ESWC2006)The 3rd Annual Europe...
Comment produire les annotations ?Indexation classique -> indexation sémantiqueEurope                          European [g...
Comment produire les annotations ?Une représentation sémantique de la page web       Oct 2012 - IST   De la construction d...
… à l’heure du web des données   2 défis       Extraire les triplets       Les associer à des données existantes       ...
Reconnaître des données existantes   Des mots à des triplets    spécifiques   De triplets à des classes,    des types  ...
2 – Pourquoi des ontologies ?Nécessité de référentiels pour relier les données entre ellesNécessité de la formalisation po...
Est-ce la fin des ontologies ?  ===========================================     1st International Workshop on     Ontology...
Nécessité de référentiels pour lier les données   Enjeux pour lier les données       Reconnaître la même instance dans l...
Ontologies : motivations   Réutilisation   Partage de la connaissance et communication       Interopérabilité entre dif...
Ontologies : historiqueOntologie PHILO. Partie de la métaphysique qui s’applique à l’être en  tant qu’être, indépendamment...
Ontologies en Ingénierie des ConnaissancesOntologie Spécification normalisée représentant les classes desobjets reconnus c...
D’un formulation linguistique à une représentationformelle (1)      Oct 2012 - IST   De la construction dontologies à lann...
D’un formulation linguistique à une représentationformelle : si on utilisait une ontologie ? (2)      Oct 2012 - IST   De ...
Une ontologie permet de typer les données (3)     Oct 2012 - IST   De la construction dontologies à lannotation sémantique...
Une ontologie pour repérer les ambigüités (4)   Exploiter les contraintes de l’ontologie formelle         Oct 2012 - IST ...
Une ontologie pour définir avec précision (5)                                        :NationalitéFrançaise rdfs:subClassOf...
Autres intérêts d’utiliser une ontologie (5)     Représenter les connaissances sous une forme plus      synthétique (ex d...
Ontologie vs thésaurus                               Thésaurus SRLF et de la SFARhémopéritoine        Oct 2012 - IST   De ...
Ontologie vs thésaurus   hémopéritoine : « épanchement hématique localisé au niveau du péritoine »                      Hi...
Ontologie vs thésaurus        fracture à la base du crâne                    Hiérarchie de concepts                       ...
Une ontologie respecte des principes destructuration … en principe …   Fixer préalablement et précisément (Guarino 94)   ...
Modéliser, c’est faire des choix                                         1.     Quelle différence entre patient et        ...
Principes de normalisation d’Archonte(Bachimont 2000)   Principes de différenciation       Point commun entre 1 concept ...
Ontologies - Quelques exemples en 2006       Ontologies générales ou génériques (haut niveau)             WordNet / Euro...
Ontologies pour le web des données   DBPedia, une ontologie à l’échelle du web !       Construction           à partir ...
Vocabulaires pour le web des données   Dmoz    The Open Directory Project is the largest, most comprehensive human-    ed...
Ontologies pour le web sémantique      Écrites en OWL ou RDFs      Accessibles sur le web            Identifiants : URI...
3 – Comment ? Apports du TALLe problème : donner du sens à des documentsHypothèses :       c’est articuler langue et repr...
Construire vs peupler une ontologie                                              Ontology LearningConstruction d‘ontologie...
Construire vs peupler une ontologie  Hugo est heureux que son grand-père René l’accompagne pour  retrouver sa mère Rosie.J...
Les textes pour construire ou peupler   Construire le schéma                                                             ...
Trouver les formulations linguistiques  Ressource            LESION                     LOCALISATION              ANATOMIE...
Trouver les variantes de formulation    RTO           sevrage              (OBJET)           Noradrénaline                ...
Couches de TAL pour construire une ontologie   (Buitelaar, EACL 2006)Toute personne a au plus 1 mère                      ...
Extraire des termes   Termes       Unité lexicale complexe qui fait sens dans le domaine       Candidats           Pèr...
Techniques pour identifier des termes   Linguistiques       = caractériser la syntaxe des termes par des patrons        ...
Extracteurs de termes « linguistiques »   Patrons appris sur corpus annoté : ANA (Daille)   Frontières négatives Lexter ...
TermoStat (Drouin, 2007) : ex de patrons      TermoStat Web       http://olst.ling.umontreal.ca/~drouinp/termostat_web/  ...
Termostat : score de spécificité     Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussena...
Termostat : Critères de sélection des termes   Fréquence Spécificité   Relations syntaxiques entre termes /productivité ...
Couches de TAL pour construire une ontologieToute personne a au plus 1 mère                                               ...
Recherche de synonymes en français   Ressources exploitables       Dictionnaires de synonymes (Dicosyn (U. de Caen, ~200...
Synonymie inter-langue   Techniques statistiques       Clustering           Classer les termes selon leur distribution ...
Couches de TAL pour construire une ontologie   (Buitelaar, EACL 2006)Toute personne a au plus 1 mère                      ...
Typologie des méthodes de structuration   Méthodes structurelles       Exploitent sur la structure syntaxique interne de...
Méthode structurelle : dépendance syntaxique   Dépendance syntaxique       Chaque terme complexe se décompose en une Têt...
« Tous les Nom Adj sont des Nom » est fauxCT : syndrome ~                                                        Taxinomie...
Méthode structurelle : variation   Principe général (Daille, 2009)        Si             CT1 = [ A B1 ]             CT2 =...
Variation morphosyntaxique   Type de relations       verbe – nom (transférer un = transfert du)       nom – adjectif (t...
Variation morphosyntaxique : des résultats   Une productivité réduite, mais des résultats fiables       Corpus REA : env...
Couches de TAL pour la construction   d’ontologies (Buitelaar, EACL 2006)Toute personne a au plus 1 mère                  ...
Méthodes contextuelles locales :patrons de relation     Exemples :                           un … est un … qui           ...
Méthodes contextuelles globales :cooccurrence   Méthodes classiques en informatique documentaire       Création automati...
Méthode contextuelle globale :analyse distributionnelle   Analyse distributionnelle (Zellig S. HARRIS)       Deux termes...
Analyse distributionnelle :choix méthodologiques   Analyse syntaxique en entrée       syntagmes nominaux / syntagmes ver...
Logiciels   Extraction de relations       Caméléon -> démo       Terminoweb http://termino.iit.nrc.ca/index.jsp   Chaî...
Couches de TAL pour la construction    d’ontologies (Buitelaar, EACL 2006)Toute personne a au plus 1 mèreSi Pere(x,y) et P...
4 - Annotation sémantique,  extraction d’information :  convergencesLa diversité des annotationsL’annotation de documents ...
Annotations et méta-données   Annotation comme objet       Information associée à une page existante       Information ...
Emprunté à Y. Prié, cours M2R 2005-2006Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Ausse...
Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles   71
Processus d’annotation sémantique    2 types d’annotations        Associer des concepts à tout le document ou à chaque  ...
Annotation sémantique de documents textuels   Annotation comme processus   But       Construire une représentation de c...
Processus d’annotation sémantique                                                          Indices pour annoter          ...
Graphe d’annotation   Graphe de relations entre    instances   Graphe connexe   Ensemble de triplets    conformes au mo...
Processus d’annotation   Ex de difficultés       Ontologie : concept « rouler » > comment reconnaître roulage ?       O...
Processus d’annotation : fonctions de TALessentielles   Calculer la distance entre 2 termes       Distances entre chaîne...
Couches de TAL pour l’annotation   sémantique (Buitelaar, EACL 2006)Toute personne a au plus 1 mère                       ...
Annotation sémantique avec TextAnnothttp://themat2i.univ-pau.fr:8080/TextAnnot-WWW/index.jsp   Le processus       Projet...
Annotation sémantique avec TextAnnothttp://themat2i.univ-pau.fr:8080/TextAnnot-WWW/index.jsp          Oct 2012 - IST   De ...
Cycle de vie des annotations Gestion des évolutions des annotations corpus Assurer la cohérence entre ontologie / annotati...
Outils d’annotation   Annotation en RDF       Annotea             W3C             Protocole de transfert d’annotation ...
CREAM   Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles   83
KIM (Kyriakov et al., 2004)   But = annoter des pages web   Implémentation = plug-in du navigateur   Mise à disposition...
KIM      Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles   85
Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles   86
Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles   87
Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles   88
Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles   89
5 – à l’heure du web des données      Nouveaux enjeux           Associer données et ontologies           Annoter avec d...
DBPedia Spotlight    DBpedia Spotlight is a tool for annotating mentions of DBpedia resources    in text, providing a solu...
Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles   92
Fred : extraire et annoter par des graphes     FRED      http://wit.istc.cnr.it/stlab-tools/fred/     analyse des phrase...
Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles   94
Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles   95
Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles   96
Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles   97
Tipalo : extraire des graphes locaux   Tipalo                             http://wit.istc.cnr.it/stlab-tools/tipalo/   B...
http://en.wikipedia.org/wiki/Isabelle_Huppert       Oct 2012 - IST   De la construction dontologies à lannotation sémantiq...
Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles   100
Annoter pour naviguer via les données   Aemoo           http://wit.istc.cnr.it/aemoo/index.html   But : recherche explor...
Aemoo n’aime que les entités, pas les classes      Oct 2012 - IST   De la construction dontologies à lannotation sémantiq...
Aemoo aime bien les entités      Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-G...
Inquire : intelligent textbookhttp://www.aaaivideos.org/2012/inquire_intelligent_textbook/                                ...
Inquire : annotation par des graphes     Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aus...
Inquire : interrogation     Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles ...
Le graphe / concept réponse     Oct 2012 - IST   De la construction dontologies à lannotation sémantique - N. Aussenac-Gil...
Afficher la réponse : document reconstruit     Oct 2012 - IST   De la construction dontologies à lannotation sémantique - ...
Discussion: web des données, web sémantique   Le web des données       Plus de données       Format homogène       Pro...
Convergences : les difficultés qui demeurent       Sur les données pour annoter                Relier les données => les...
Convergences : les difficultés qui demeurent   Outils d’annotation       Automatisation => articulation lexique-ontologi...
Upcoming SlideShare
Loading in...5
×

Ist2012 aussenac-ontologieAnnotationweb

1,480

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,480
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
57
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

Ist2012 aussenac-ontologieAnnotationweb

  1. 1. Donner du sens à des documents semi-structurés : De la construction dontologiesà lannotation sémantique Nathalie Aussenac-Gilles, DR CNRS, aussenac@irit.fr À l’heure du web des données : 1. Donner du sens à des documents pour des logiciels 2. Pourquoi des ontologies ? 3. Comment ? apports du traitement automatique des langues 4. Annotation sémantique, extraction d’information : convergences 5. Web des données : nouveaux enjeux, problèmes connus Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 1
  2. 2. 1 - Donner du sens à desdocuments pour des logicielsQu’est que cela signifie ?… à l’heure du web sémantique… avec des ontologies… à l’heure du web des données Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 2
  3. 3. Donner du sens à des documents numériques Rendre accessible à un programme leur “contenu” … les informations, les connaissances que l’humain y reconnait … pour les traiter en tenant compte de ce contenu href <CV> <nom> </nom> href <adresse> </adresse> <experience> </experience> <formation>  Description documentaire </formation>  Schemas et DTD pour unifier </CV> Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 3
  4. 4. … à l’heure du web sémantique Normaliser les tags et faire référence à une ontologie pour échanger, comparer, mettre en relation Être précis, se mettre d’accord sur le sens Raisonner, exploiter des connaissances non explicites Onto:collaboreAvec Foaf <CV> dc:estAuteurDe P1 rdf:Type foaf:person P1 foaf:name ”‫”ﮇﮠﭿ‬ P1 foaf:adress ”‫”ﭰﭜﭪﮇﮠﭿ‬ Expe1 rdf:Type onto:experience Onto P1 onto:aExperience Expe1 …. </CV> Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 4
  5. 5. Comment produire les annotations ? Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 5
  6. 6. Comment produire les annotations ?Indexation classique3rd European Semantic Web Conference (ESWC2006)The 3rd Annual European Semantic Web Conference (ESWC2006) will be held in Budva, Montenegro from the 11th - 14th June, 2006.It will present the latest results in research and application in Semantic Web technologies (including knowledge markup languages, Semantic Web services, ontology management and more).ESWC 2006 will also feature a special industry-oriented event providing European industry with an opportunity to become even more familiar with these technologies. It will offer a tutorial program, focusing on the latest in Semantic Web technologies. Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 6
  7. 7. Comment produire les annotations ?Indexation classique -> indexation sémantiqueEurope European [geographic area:Europe] Semantic Technol SemanticSemanti Includi Web [semantic Web]Web Web [semantic Web] Knowled Conference [conference] Technology [technology]Confere Including [to include]Annual Markup Annual Languag European [geographic area:Europe] Knowledge [knowledge]EuropeSemanti Semanti Semantic MarkupWeb Web Web Language [Markup Language]Confere Conference [conference] Semantic Service Budva [City:Budva]Budva Ontolog Web [semantic Web]Montene Montene [geographic managem area:Montenegro] Servicepresent Ontology [Ontology] Feature present [to present]results Special results [result] management [management]ResearcApplica Industr Research [research] Feature [to feature] Application [application] SpecialSemanti OrienteWeb event Industrial [industrial] Oriented … Event [event] … Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 7
  8. 8. Comment produire les annotations ?Une représentation sémantique de la page web Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 8
  9. 9. … à l’heure du web des données 2 défis  Extraire les triplets  Les associer à des données existantes Onto:collaboreAvec Foaf <CV> (hasValue,”‫ ,”ﮇﮠﭿ‬foaf:name) dc:estAuteurDe (hasValue,”‫,”ﭰﭜﭪﮇﮠﭿ‬foaf:adress) (rdf:Type, P1, foaf:person) (rdf:Type, Expe1, onto:experience) (onto:aExperience, P1, Expe1) Onto …. </CV> Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 9
  10. 10. Reconnaître des données existantes Des mots à des triplets spécifiques De triplets à des classes, des types Des triplets à des instances Reconciliation d’instances Alignement de concepts Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 10
  11. 11. 2 – Pourquoi des ontologies ?Nécessité de référentiels pour relier les données entre ellesNécessité de la formalisation pour raisonner Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 11
  12. 12. Est-ce la fin des ontologies ? =========================================== 1st International Workshop on Ontology Engineering in a Data-Driven World –OEDW 2012 Full-day workshop at EKAW 2012 (Galway, Ireland) October 8th or 9th, 2012 http://granvia.dia.fi.upm.es/oedw2012/ =========================================== * Motivation* - Is the current data-driven world going to kill ontologies? - Are we navigating towards a shallow Web of Data? * Topics * - Guidelines, methods, and tools for Linked Data engineering - Methods for ontology/vocabulary reuse in the Linked Data context - Methods and techniques for ontology/vocabulary mapping and alignment in the Linked Data context - Guidelines, methods, and tools for RDB to RDF mappings - Life cycle management in the context of Linked Data - Creation of knowledge out of Linked Open Data - Ontology/vocabulary repositories - Empirical findings and statistics about ontologies underlying Linked Data … Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 12
  13. 13. Nécessité de référentiels pour lier les données Enjeux pour lier les données  Reconnaître la même instance dans le même document  Reconnaître la même classe dans une collection  Reconnaître la même instance dans une collection Geonames:city ??:books Phénomènes linguistiques associés  Calcul de références  Polysémie (quel est le sens d’une occurrence de terme ? Quel type sémantique lui associer ?)  Synomymie (savoir qu’on parle de la même entité ou du même concept avec des termes différents) Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 13
  14. 14. Ontologies : motivations Réutilisation Partage de la connaissance et communication  Interopérabilité entre différents SBC  Échange de connaissances entre systèmes Premières initiatives  Infrastructure comme support à la réutilisation de connaissance  «Knowledge Sharing Effort », ONTOLINGUA,...  INTERLINGUA (KIF) comme langage pivot pour la traduction d’un langage vers un autre Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 15
  15. 15. Ontologies : historiqueOntologie PHILO. Partie de la métaphysique qui s’applique à l’être en tant qu’être, indépendamment de ses déterminations particulières (Le Petit Robert).Taxinomie 1.DIDACT. Étude théorique des bases, lois, règles, principes, d’une classification. 2. Classification d’éléments (Le Petit Robert).  Taxinomies en sciences naturelles référant ConceptDepuis Aristote : essence des choses,points communs et différences évoque Refère à Triangle sémiotique : signe, référant, référé signe Forme Référé Dénomme “Jaguar“ [Odwen, Richards, 1923] Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 16
  16. 16. Ontologies en Ingénierie des ConnaissancesOntologie Spécification normalisée représentant les classes desobjets reconnus comme existant dans le domaine. Construireune ontologie, c’est aussi décider d’une manière d’être etd’exister des objets. Modèles des connaissances d’un domaine pertinentes pour une application, une tâche donnée FOND Conceptualisation de ces connaissances en classes génériques, relations et règles Application de principes de normalisation, de « bonne construction » et/ou référence à des classes ontologiques Réseau sémantique + axiomes FORME Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 17
  17. 17. D’un formulation linguistique à une représentationformelle (1) Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 18
  18. 18. D’un formulation linguistique à une représentationformelle : si on utilisait une ontologie ? (2) Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 19
  19. 19. Une ontologie permet de typer les données (3) Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 20
  20. 20. Une ontologie pour repérer les ambigüités (4) Exploiter les contraintes de l’ontologie formelle Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 21
  21. 21. Une ontologie pour définir avec précision (5) :NationalitéFrançaise rdfs:subClassOf :nationalité :français#1 rdf:type :NationaliteFrançaise Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 22
  22. 22. Autres intérêts d’utiliser une ontologie (5) Représenter les connaissances sous une forme plus synthétique (ex des proprités) :Homme rdfs:subClassOf :Personne :Femme rdfs:subClassOf :Personne :apourProfession rdfs:domain :Personne rdfs:range :Profession Regroupe les 2 définitions :apourProfession rdfs:domain :Homme rdfs:range :Profession :apourProfession rdfs:domain :Homme rdfs:range :Profession Pouvoir définir des classes par leurs propriétés :  Définir “journaliste français” Soit p tel que : Personne(p) et (p : apourProfession :journaliste) et (p :apourNationalité :NationalitéFrançaise), alors :JournalisteFrançais(p) Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 23
  23. 23. Ontologie vs thésaurus Thésaurus SRLF et de la SFARhémopéritoine Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 24
  24. 24. Ontologie vs thésaurus hémopéritoine : « épanchement hématique localisé au niveau du péritoine » Hiérarchie de concepts Hiérarchie de relation ETAT_PATHOLOGIQUE ANATOMIE ETAT_PATHOLOGIQUE_LOCAL … LOCALISATION LESION ANA_TISSU_ENVEL à_côté_de adénopathie capsule à_lextérieur_de … duremère au_dessus_de épanchement mésentère … épanchement gazeux peau au_niveau_de épanchement liquidien … épanchement de pus péritoine épanchement hématique Liens LESION (LOCALISATION) ANATOMIE Concept défini épanchement hématique (au_niveau_de) péritoineOct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 25
  25. 25. Ontologie vs thésaurus fracture à la base du crâne Hiérarchie de concepts Hiérarchie de relations LESION SITUATION LOCALISATION OBJET épanchement angle à_côté_de … fracture base à_lextérieur_de DE bord au_dessus_de … ANATOMIE_OBJET … OS au_niv_de crâne … Liens LESION (LOCALISATION) SITUATION SITUATION (OBJET) ANATOMIE_OBJET Concept défini fracture (au_niveau_de) base (DE) crâneOct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 26
  26. 26. Une ontologie respecte des principes destructuration … en principe … Fixer préalablement et précisément (Guarino 94) – les engagements ontologiques généraux : point de vue – les catégories de haut-niveau : appellations et significations (DOLCE) – le processus de raffinement de ces engagements et définitions des catégories – la spécialisation de ces catégories Déterminer une ontologie revient à fixer la signification attendue des primitives d’un domaine (Guarino 96) – les primitives n’existent pas en tant que telles dans un domaine d’expertise Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 27
  27. 27. Modéliser, c’est faire des choix 1. Quelle différence entre patient et patiente ? 2. Un concept « primitif » (patient), deux caractéristiques différentes, différenciant ainsi les deux concepts « définis ». 3. La différence est explicitement liée à un attribut (sexe) dont la valeur diffère. Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 28
  28. 28. Principes de normalisation d’Archonte(Bachimont 2000) Principes de différenciation  Point commun entre 1 concept et son père  Différence entre 1 concept et son père  Points communs entre 1 concept et ses frères  Différences entre un concept et ses frères Les différences ne sont pas forcément représentées à l’aide de propriétés mais au moins par des commentaires Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 29
  29. 29. Ontologies - Quelques exemples en 2006  Ontologies générales ou génériques (haut niveau)  WordNet / EuroWordNet, http://www.cogsci.princeton.edu/~wn  The Upper Cyc Ontology, http://www.cyc.com/cyc-2-1/index.html  IEEE Standard Upper Ontology, http://suo.ieee.org/  DOLCE, http://www.loa-cnr.it/ontologies/DLP_397.owl  LRI-Core: a core ontology for law  Ontologies de domaine ou spécifiques à des applications  RDF Site Summary RSS, http://groups.yahoo.com/group/rss-dev/files/schema.rdf  UMLS, http://www.nlm.nih.gov/research/umls/  RETSINA Calendering Agent, http://ilrt.org/discovery/2001/06/schemas/ical-full/hybrid.rdf  AIFB Web Page Ontology, http://ontobroker.semanticweb.org/ontos/aifb.html  Web-KB Ontology, http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/  Dublin Core, http://dublincore.org/  Meta-Ontologies  Semantic Translation, http://www.ecimf.org/contrib/onto/ST/index.html  Evolution Ontology, http://kaon.semanticweb.org/examples/Evolution.rdfs  Ontologies au sens large  Agrovoc, http://www.fao.org/agrovoc/  Art and Architecture Thesaurus, http://www.getty.edu/research/tools/vocabulary/aat/  UNSPSC, http://eccma.org/unspsc/  DTD standardizations, e.g. HR-XML, http://www.hr-xml.org/ Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 30
  30. 30. Ontologies pour le web des données DBPedia, une ontologie à l’échelle du web !  Construction  à partir des Info-box de Wikipedia  Extraction d’information à partir de documents semi-structurés  L’ontologie  359 classes  800 object properties  859 datatype properties  116 specialized datatype properties  45 owl:equivalentClass, 31 owl:equivalentProperty mappings  La base de connaissances (pour l’anglais) = 3.77 million things  2.35 million are classified in a consistent Ontology  764,000 persons, 573,000 places, 333,000 creative works (including 112,000 music albums, 72,000 films and 18,000 video games), 192,000 organizations (including 45,000 companies and 42,000 educational institutions), 202,000 species and 5,500 diseases.  Versions disponibles en 111 langues = 20.8 million things, out of which 10.5 mio are interlinked with concepts from the English DBpedia. http://wiki.dbpedia.org/About Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 34
  31. 31. Vocabulaires pour le web des données Dmoz The Open Directory Project is the largest, most comprehensive human- edited directory of the Web. It is constructed and maintained by a vast, global community of volunteer editors.  Associé au web2.0 et à l’annotation collaborative  Organiser les rubriques, les catégories d’annotation  structure.rdf.u8.gz - category hierarchy information  http://www.dmoz.org Freebase Freebase is an open, Creative Commons licensed graph database with more than 23 million entities. An entity is a single person, place, or thing. Freebase connects entities together as a graph.  Structure : données structurées selon un SCHEMA en domaines / types (concepts) / properties  Pas vraiment de sémantique des types Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 35
  32. 32. Ontologies pour le web sémantique  Écrites en OWL ou RDFs  Accessibles sur le web  Identifiants : URI  Importent d’autres ontologies <owl:Class rdf:ID= “wineOnto:Winery”/> <owl:Class rdf:ID= wineOnto:PotableLiquid »/> <owl:Class rdf:ID="Wine"> <rdfs:subClassOf rdf:resource="food:PotableLiquid"/> <rdfs:label xml:lang="en">wine</rdfs:label> <rdfs:label xml:lang="fr">vin</rdfs:label> ... </owl:Class> Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 36
  33. 33. 3 – Comment ? Apports du TALLe problème : donner du sens à des documentsHypothèses :  c’est articuler langue et représentations sémantiques  les représentations sémantiques sont mieux définies dans une ontologieL’approche : extraire des informations/connaissances des textesLes outils : logiciels de Traitement Automatique des langues Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 37
  34. 34. Construire vs peupler une ontologie Ontology LearningConstruction d‘ontologie Ontology Creation & DevelopmentConstruction d‘ontologieIdentifier des indices de prédicatsAnalyse linguistique pour extraire des(catégories, attributs, propriétés)prédicatsde leur représentation dansDécider (catégories, attributs,propriétés) à partir de textesl’ontologie Extraire Classes & Relations Peuplement d‘ontologie Extraire (Annoter) Instances Extraire des indices linguistiques d’instances de concepts de l’ontologie Annoter Ontology Population Knowledge Base Generation Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 38
  35. 35. Construire vs peupler une ontologie Hugo est heureux que son grand-père René l’accompagne pour retrouver sa mère Rosie.Je crée l’ontologie Je décris des instances Classes  Classes / propriétés connues Propriétés des classes  Personne Relations binaires  PereDe; MereDe  GrandParentDe  Personne  Instances identifiées  Hugo, René, Rosie  PereDe ou MereDe  GrandParentDe  Relations entre instances  AppartientMemeFamilleQue  GrandPereDe(René, Hugo)  MereDe(Rosie,Hugo)  PereDe(René, Rosie) Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 39
  36. 36. Les textes pour construire ou peupler Construire le schéma Ontologie Indices linguistiques RTO : ressource termino-ontologique Peupler par des instances Où stocker les indices linguistiques ?? Et les patrons/ logiciels pour les trouver ? Ontologie Indices linguistiques Instances RTO Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 40
  37. 37. Trouver les formulations linguistiques Ressource LESION LOCALISATION ANATOMIE CONCEPT épanchement hématique (au_niveau_de) péritoine système hémopéritoine terme texteLéchographie abdominale retrouve une contusion splénique et un hémopéritoine. Traumatisme abdominal avec une fracture de rate et unhémopéritoine abondant, ayant nécessité une splénectomie en urgence. Un nouvel état de choc apparaît associé à syndromecompartimentaire abdominal (hémopéritoine + hématome rétropéritonéal)) justifiant la laparotomie exploratrice. Lévacuation delhémopéritoine ne permet pas de mettre en évidence une cause nette au saignement ;Instabilité hémodynamique initiale, avec TA 80 / 60et fréquence cardiaque à 120 / min en relation avec des pertes sanguines sur les foyers de fractures (échographie abdominale normale,absence d‘ hémopéritoine ou de lésion viscérale intrapéritonéale évidente)).deux échographies abdominales successives unhémopéritoine évolutif, sans pneumopéritoine, ainsi quun décollement péricardique postérieur.un traumatisme thoraco-abdominal avecfracture des arcs postérieurs des 7e, 8e et 9e côtes droites, contusion hépatique au niveau des segments VI-VII, hémopéritoine demoyenne abondance, contusion splénique,Instabilité hémodynamique nécessitant remplissage, transfusion de culots globulaires, PFC etplaquettes dans le cadre dun hémopéritoine sur fracture du bassin. Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 41
  38. 38. Trouver les variantes de formulation RTO sevrage (OBJET) Noradrénaline CONCEPT sevrage_Noradrénaline sevrage en noradrénaline sevrage de la noradrénaline termes sevrage Adj? [de|en] la? noradrénaline système sevré de noradrénaline patrons noradrénaline être Adv? sevré textesevrage en noradrénaline le 23 / 10. Stabilité cardiorespiratoire, le sevrage de la Noradrénaline est fait à J5 de laréintervention et lextubation est réalisée à J6. Evolution favorable avec sevrage rapide en Noradrénaline le 20 / 06 /99. Stabilité hémodynamique initiale correcte avec sevrage progressif en Noradrénaline obtenu à J3. Les suites duchoc hypovolémique hémorragique sont simples, avec sevrage de noradrénaline à J3 et extubation à J2. Lévolutionest alors favorable avec Instauration dune corticothérapie ayant permis un sevrage rapide de la Noradrénaline, Lapatiente est sevrée de noradrénaline le 16 / 06 / 00. Le patient est sevré de Noradrénaline le 13 / 05 / 00. LaNoradrénaline est sevrée dans la nuit du 20 au 21 / 01. Après remplissage vasculaire par 1000 cc de Plasmion et1000 cc dElohes, la Noradrénaline est rapidement sevrée Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 42
  39. 39. Couches de TAL pour construire une ontologie (Buitelaar, EACL 2006)Toute personne a au plus 1 mère Axiomes, règlesDisjoint(personne, ville) Schémas d’axiomesestParentDe(Personne, personne) ;habiteDans(personne, ville) Autres relationsPèreAdoptif est_un père Hiérarchie de conceptspersonne est_un êtreVivantC:père = {René,…}, {personne qui a 1 enfant} Concepts{père, papa, géniteur} Synonymes (multilingues){mari, conjoint, époux}Personne, père, père adoptif, Termesenfant, grand-parent Séquence de mots (texte) Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 43
  40. 40. Extraire des termes Termes  Unité lexicale complexe qui fait sens dans le domaine  Candidats  Père connaissance  Père adoptif acquisition de connaissances  Père adoptif de l’enfant Acquisition de K du domaine  . Acquisition de connaissances du jour Difficultés  Trop de candidats : comment sélectionner ?  Quels sont les bons termes pour mon ontologie ?  Notion de termhood (« termitude ») = importance, représentativité du candidat dans le domaine Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 44
  41. 41. Techniques pour identifier des termes Linguistiques  = caractériser la syntaxe des termes par des patrons N, N prep det N, Adj N; N adj, …  Exploiter les frontières : det, prep, verbes  Exploiter les noms propres, mots vides … Statistiques  Co-occurrences, segments répétés  Comparaison de la fréquence dans le corpus % à la langue générale Hybrides  Utiliser les statistiques pour filtrer les termes  Combiner patrons + co-occurrences pour trouver des candidats Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 45
  42. 42. Extracteurs de termes « linguistiques » Patrons appris sur corpus annoté : ANA (Daille) Frontières négatives Lexter ( Bourigault, 2000) Patrons exploitant les dépendances grammaticales : SYNTEX (Bourigault, 2003) Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 46
  43. 43. TermoStat (Drouin, 2007) : ex de patrons  TermoStat Web http://olst.ling.umontreal.ca/~drouinp/termostat_web/ Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 47
  44. 44. Termostat : score de spécificité Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 48
  45. 45. Termostat : Critères de sélection des termes Fréquence Spécificité Relations syntaxiques entre termes /productivité Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 49
  46. 46. Couches de TAL pour construire une ontologieToute personne a au plus 1 mère Axiomes, règlesDisjoint(personne, ville) Schémas d’axiomesestParentDe(Personne, personne) ;habiteDans(personne, ville) Autres relationsPèreAdoptif est_un père Hiérarchie de conceptspersonne est_un êtreVivantC:père = {René,…}, {personne qui a 1 enfant} Concepts{père, papa, géniteur} Synonymes (multilingues){mari, conjoint, époux}Personne, père, père adoptif, Termesenfant, grand-parent Séquence de mots (texte) De la construction dontologies à lannotation sémantique - Oct 2012 - IST N. Aussenac-Gilles 50
  47. 47. Recherche de synonymes en français Ressources exploitables  Dictionnaires de synonymes (Dicosyn (U. de Caen, ~200 000 couples)  Ressources lexicales (Synset de Wordnet) Logiciel SYNOTERM (Hamon, 2006) :  Exploiter la structure des termes et des dictionnaires de synonymes + vérifier en corpus:  Si A et B sont synonymes,  Si NA et NB existent en corpus  Alors proposer NA synonyme de NB Problème : la relation de synonymie est contextuelle  Identifier des relations de synonymie pertinentes  pour le domaine  pour l’application Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 51
  48. 48. Synonymie inter-langue Techniques statistiques  Clustering  Classer les termes selon leur distribution  2 termes sont groupés dans une classe s’ils sont utilisés dans les mêmes contextes  Classification  Associer des candidats termes à des classes déjà définies Exploiter des corpus parallèles  Même texte exprimé dans 2 langues Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 52
  49. 49. Couches de TAL pour construire une ontologie (Buitelaar, EACL 2006)Toute personne a au plus 1 mère Axiomes, règlesDisjoint(personne, ville) Schémas d’axiomesestParentDe(Personne, personne) ;habiteDans(personne, ville) Autres relationsPèreAdoptif est_un père Hiérarchie de conceptspersonne est_un êtreVivantC:père = {René,…}, {personne qui a 1 enfant} Concepts{père, papa, géniteur} Synonymes (multilingues){mari, conjoint, époux}Personne, père, père adoptif, Termesenfant, grand-parent Séquence de mots (texte) Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 53
  50. 50. Typologie des méthodes de structuration Méthodes structurelles  Exploitent sur la structure syntaxique interne des candidats termes («endotermes»)  Composition syntaxique  Variation morpho-syntaxique, lexicale Méthodes contextuelles  Exploitent les contextes de co-occurrence des candidats termes («exotermes»)  Locales : une relation extraite pour une occurrence  Patrons  Globales : des relations extraites à partir d’un ensemble d’occurrences  Cooccurrence statistique  Analyse distributionnelle Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 54
  51. 51. Méthode structurelle : dépendance syntaxique Dépendance syntaxique  Chaque terme complexe se décompose en une Tête et une Expansion  Séries paradigmatiques ontologie ~ ~ de base de connaissance T ---- disponible E ---- concepteur ---- définie ---- conception ---- explicite ---- construction ---- formelle ---- maintenance ---- référentielle ---- raffinement ---- régionale ---- structure ---- résultante ---- usage ---- spécialisée ---- validation ---- universelle ---- vérification Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 55
  52. 52. « Tous les Nom Adj sont des Nom » est fauxCT : syndrome ~ Taxinomie de concepts38 syndrome septique SYNDROME35 syndrome infectieux SYNDROME_CLINIQUE anasarque29 Syndrome alvéolaire apnée du sommeil28 syndrome dépressif …27 syndrome confusionnel syndrome bronchique23 syndrome de défaillance syndrome cave syndrome confusionnel19 syndrome bilatéral …18 syndrome inflammatoire SYNDROME_MIXTE17 Syndrome fébrile état de mort encéphalique rhabdomyolyse16 syndrome de défaillance multiviscérale …14 syndrome pyramidal syndrome de défaillance multiviscérale14 syndrome alvéolaire bilatéral syndrome de détresse respiratoire aiguë14 Syndrome abdominal … SYNDROME_PARACLINIQUE14 syndrome occlusif syndrome alvéolaire 11 syndrome de sevrage syndrome alvéolo-interstitiel … … … Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 56
  53. 53. Méthode structurelle : variation Principe général (Daille, 2009) Si CT1 = [ A B1 ] CT2 = [ A B2 ] Et B1 REL B2 Alors CT1 REL CT2 Exemples  Variation morphosyntaxique transférer en réanimation  transfert en réanimation patient transféré  transfert du patient  Variation lexicale hausse de la température  augmentation de la température Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 57
  54. 54. Variation morphosyntaxique Type de relations  verbe – nom (transférer un = transfert du)  nom – adjectif (transfert de / transférable)  … Méthodes exogènes : avec ressources lexicales  Celex  Verbaction (ERSS, N. Hathout) : verbe – nom Méthodes endogène : sans ressource externe  Règles de troncation + validation sur corpus Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 58
  55. 55. Variation morphosyntaxique : des résultats Une productivité réduite, mais des résultats fiables  Corpus REA : environ 200 couples SV-SN arrêter les antibiotiques, arrêt des antibiotiques, antibiotiques arrêtés drainer un pneumothorax, drainage du pneumothorax lever une atélectasie, levée de l’atélectasie  Corpus Code Civil : environ 100 couples SV-SN le conseil de famille autorise, autorisation du conseil de famille établir la filiation, filiation établie révoquer la donation, révocation de la donation, donation révoquée Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 59
  56. 56. Couches de TAL pour la construction d’ontologies (Buitelaar, EACL 2006)Toute personne a au plus 1 mère Axiomes, règlesDisjoint(personne, ville) Schémas d’axiomesestParentDe(Personne, personne) ;habiteDans(personne, ville) Autres relationsPèreAdoptif est_un père Hiérarchie de conceptspersonne est_un êtreVivantC:père = {René,…}, personne qui a 1 enfant} Concepts{père, papa, géniteur} Synonymes (multilingues){mari, conjoint, époux}Personne, père, père adoptif, Termesenfant, grand-parent Séquence de mots (texte) Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 60
  57. 57. Méthodes contextuelles locales :patrons de relation  Exemples : un … est un … qui tous les …, sauf …, … et …  Problèmes  Généralités vs. spécificité (domaine, type de textes)  Relations  Patrons  Prétraitements : quels indices exploiter ?  Lexique, POS, relations syntaxiques SUJET-OBJET…,  Valider des patrons généraux  Cf. Cameléon  Acquérir des patrons spécifiques  Technique itérative (Hearst, 1992)  Apprentissage automatique Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 61
  58. 58. Méthodes contextuelles globales :cooccurrence Méthodes classiques en informatique documentaire  Création automatique de thesaurus Cooccurrence statistique  1er ordre  Les unités qui cooccurrent avec le mot pivot dans une fenêtre donnée (phrase, paragraphe, +- n mots)  2ème ordre  Les unités qui ont les mêmes cooccurrents que le mot pivot Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 62
  59. 59. Méthode contextuelle globale :analyse distributionnelle Analyse distributionnelle (Zellig S. HARRIS)  Deux termes sont rapprochés s’ils apparaissent dans les mêmes contextes syntaxiques. ontologie taxinomie contextes insertion dans ~ classer dans ~ structurer ~ organisation de ~ réaliser ~ Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 63
  60. 60. Analyse distributionnelle :choix méthodologiques Analyse syntaxique en entrée  syntagmes nominaux / syntagmes verbaux Données (unités rapprochées, contexte)  structures élémentaires / structures complexes Mesures de proximité  Jaccard / Jaccard pondéré / … Types de regroupement  Couples / classes / cliques / … Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 64
  61. 61. Logiciels Extraction de relations  Caméléon -> démo  Terminoweb http://termino.iit.nrc.ca/index.jsp Chaînes de traitements  text2Onto http://ontoware.org/projects/text2onto/  Un projet européen : NEON http://www.neon-project.org/  Un projet pour le français : DAFOE http://dafoe4app.fr/ Oct 2012 - IST 65 De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles
  62. 62. Couches de TAL pour la construction d’ontologies (Buitelaar, EACL 2006)Toute personne a au plus 1 mèreSi Pere(x,y) et Pere(y,z) alors GrandPere(X,Z) Axiomes, règlesDisjoint(personne, ville) Schémas d’axiomesestParentDe(Personne, personne) ;habiteDans(personne, ville) Autres relationsPèreAdoptif est_un père Hiérarchie de conceptspersonne est_un êtreVivantC:père = {René,…}, personne qui a 1 enfant} Concepts{père, papa, géniteur} Synonymes (multilingues){mari, conjoint, époux}Personne, père, père adoptif, Termesenfant, grand-parent Séquence de mots (texte) Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 66
  63. 63. 4 - Annotation sémantique, extraction d’information : convergencesLa diversité des annotationsL’annotation de documents textuels : de la langue aux représentations formellesQuelques logiciels d’annotationÀ l’heure du web des donnéesOct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 67
  64. 64. Annotations et méta-données Annotation comme objet  Information associée à une page existante  Information manipulable par un système informatique  Information qui peut être séparée des données annotées Annotation vs méta-donnée vs index  Méta-donnée  Plutôt normalisée, catégories définies a priori et souvent séparée du document (fichier à part)  Ex : Dublin Core  Annotation  Plutôt liée au domaine, définie A LA MAIN ou automatiquement, APRES création du document, complète le document  Index  Plutôt lié au contenu, calculé AUTOMATIQUEMENT à partir du document (APRES création), stocké à part, se substitue au document Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 68
  65. 65. Emprunté à Y. Prié, cours M2R 2005-2006Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 69
  66. 66. Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 71
  67. 67. Processus d’annotation sémantique  2 types d’annotations  Associer des concepts à tout le document ou à chaque paragraphe (annotation conceptuelle)  Localiser précisément les mots correspondant aux concepts (annotation sémantique)  2 types de processus / de logiciels  Manuel : interface pour « poser » des annotations (ex: Magpie, Notator)  Automatique : logiciel de production d’un index sémantique Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 72
  68. 68. Annotation sémantique de documents textuels Annotation comme processus But  Construire une représentation de chaque document formée de concepts (et de relations entre concepts) Les indices linguistiques comme pivots  Retrouver des traces linguistiques de concepts / d’instances de concepts / dans les textes  Retrouver des traces linguistiques de relations Indices linguistiques Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 73
  69. 69. Processus d’annotation sémantique  Indices pour annoter  termes importants ou mots clés présents dans l’ontologie  = étiquettes des concepts (labels ou Id)  Annoter  Enregistrer les concepts associés  Résultat de l’annotation (suivant les approches)  Liste de concepts  Liste d’instances de concepts  Graphe de concepts  Graphe d’instances de concepts Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 74
  70. 70. Graphe d’annotation Graphe de relations entre instances Graphe connexe Ensemble de triplets conformes au modèle de l’ontologie Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 75
  71. 71. Processus d’annotation Ex de difficultés  Ontologie : concept « rouler » > comment reconnaître roulage ?  Ontologie : concepts « perte de puissance » et « puissance » : comment choisir « perte de puissance » ?  Ontologie : « perte de puissance » EST-UN « problème » : faut-il annoter avec le concept le plus spécifique ? Le plus générique ? Les deux ?  Phrase : (à haut régime) :  parenthèses: faut-il en tenir compte ? Comment les interpréter ?  Fin de phrase : comment savoir que « haut régime » est associé au moteur et pas à « autoroute » ? Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 76
  72. 72. Processus d’annotation : fonctions de TALessentielles Calculer la distance entre 2 termes  Distances entre chaînes de caractères (dist lexicales)  Basée sur des n-grammes, souvent 3-grammes : chat et chaton ont en commun {cha, hat} (mesure de Lin, 1998)  Distance d’édition (Levenshtein, 1996) E(T1,T2) = nbre d’opérations pour passer de T1 à T2  String matching (Maedche et Staab, 2002)  Distances entre termes composés de plusieurs mots  Distance entre vecteurs de mots Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 77
  73. 73. Couches de TAL pour l’annotation sémantique (Buitelaar, EACL 2006)Toute personne a au plus 1 mère Axiomes, règlesDisjoint(personne, ville) Schémas d’axiomesestParentDe(Personne, personne) ;habiteDans(personne, ville) Autres relationsPèreAdoptif est_un père Hiérarchie de conceptspersonne est_un êtreVivantC:père = {René,…}, personne qui a 1 enfant} Concepts{père, papa, géniteur} Synonymes (multilingues){mari, conjoint, époux}Personne, père, père adoptif, Termesenfant, grand-parent Séquence de mots (texte) Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 78
  74. 74. Annotation sémantique avec TextAnnothttp://themat2i.univ-pau.fr:8080/TextAnnot-WWW/index.jsp Le processus  Projette les termes de la RTO des fiches à annoter  indexation avec le moteur Lucène  distance entre termes basée sur des trigrammes  Génère des instances de termes  Pour chaque terme, génère une instance DU (seul) concept associé  Met en relation les instances de concepts reconnus lorsque les termes sont proches dans la même phrase  Les met en relation avec le type de relation proposé dans l’ontologie Le résultat  Graphe d’instances, connexe  Ensemble de triplets d’instances ajoutées à l’ontologie Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 79
  75. 75. Annotation sémantique avec TextAnnothttp://themat2i.univ-pau.fr:8080/TextAnnot-WWW/index.jsp Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 80
  76. 76. Cycle de vie des annotations Gestion des évolutions des annotations corpus Assurer la cohérence entre ontologie / annotation etNouveaux documents Nouveaux concepts Nouvelle terminologie Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 81
  77. 77. Outils d’annotation Annotation en RDF  Annotea  W3C  Protocole de transfert d’annotation vers/de un serveur central  Un schéma minimal, extensions possibles, classement des topics  Implémentations : Amaya Annotation sémantique en RDFs  CREAM (CREAting Metadata)  Framework pour l’annotation / édition  Notion de méta-données relationnelle (ie. basées sur les ontologies)  Ontomat  http://annotation.semanticweb.org/tools/ontomat Annotation sémantique à l’aide de graphes conceptuels  Web Knowledge Base – http://www.webkb.org/ Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 82
  78. 78. CREAM Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 83
  79. 79. KIM (Kyriakov et al., 2004) But = annoter des pages web Implémentation = plug-in du navigateur Mise à disposition d’une ontologie “générale” qui renvoie à des noms propres (lieux, personnes, entreprises, etc) Disponible à http://www.ontotext.com/kim Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 84
  80. 80. KIM Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 85
  81. 81. Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 86
  82. 82. Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 87
  83. 83. Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 88
  84. 84. Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 89
  85. 85. 5 – à l’heure du web des données  Nouveaux enjeux  Associer données et ontologies  Annoter avec des ontologies peuplées de données  Extraire des données pour annoter  Annoter pour naviguer  Nouveauté  Quantité, disponibilité des données  Continuité des problèmes linguistiques  Ambigüité, références, variation, … Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 90
  86. 86. DBPedia Spotlight DBpedia Spotlight is a tool for annotating mentions of DBpedia resources in text, providing a solution for linking unstructured information sources to the Linked Open Data cloud through DBpedia. http://en.wikipedia.org/wiki/DBpedia_Spotlight Début en Juin 2010, réalisé par les chercheurs du Web Based Systems Group de la Free University of Berlin Disponible pour l’anglais, internationalisation en cours Open source web service  Spotting: Keyphrase Extraction and Named Entity Recognition  Desambiguation : choisit la bonne classe en fonction du contexte  Annotation : retourne les résultats de l’annotation avec le “meilleur” concept pour chaque expression annotée  Candidats : retourne toutes les possibilités d’annotation de chaque expression  http://dbpedia-spotlight.github.com/demo/# Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 91
  87. 87. Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 92
  88. 88. Fred : extraire et annoter par des graphes  FRED http://wit.istc.cnr.it/stlab-tools/fred/  analyse des phrases en langage naturel  bien formées en anglais (verbe)  produit des fragments dontologies et de données liées en RDF/OWL  Principes  reconnaissance des relations du verbe (FrameNet et VerbNet)  représentation logique compatible avec DRT (discourse representation theory)  application de patrons de conception dontologie (ontology design patterns) pour bien former les fragments  Analyseurs utilisés  C&C http://svn.ask.it.usyd.edu.au/trac/candc  Boxer http://svn.ask.it.usyd.edu.au/trac/candc/wiki/boxer Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 93
  89. 89. Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 94
  90. 90. Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 95
  91. 91. Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 96
  92. 92. Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 97
  93. 93. Tipalo : extraire des graphes locaux Tipalo http://wit.istc.cnr.it/stlab-tools/tipalo/ But :  générer un graphe d’entités d’une page Wikipedia  Sorte « d’annotation » de la page  Graphe RDF composé de rdf:type, rdfs:subClassOf, owl:sameAs, et owl:equivalentTo Méthode  Utilise FRED  Affecte automatiquement un type aux entités nommées Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 98
  94. 94. http://en.wikipedia.org/wiki/Isabelle_Huppert Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 99
  95. 95. Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 100
  96. 96. Annoter pour naviguer via les données Aemoo http://wit.istc.cnr.it/aemoo/index.html But : recherche exploratoire sur le Web. Entrée : des mots clés Résultat : réseau autour de cette entité Sources exploitées :  Les textes de Wikipedia, Twitter, et Google News  Plus riche que DBpedia (qui représente seulement 7de Wikipedia). Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 101
  97. 97. Aemoo n’aime que les entités, pas les classes  Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 102
  98. 98. Aemoo aime bien les entités  Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 103
  99. 99. Inquire : intelligent textbookhttp://www.aaaivideos.org/2012/inquire_intelligent_textbook/  Ontologie de 5000 concepts  Editeur de graphes  Annotation manuelle Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 104
  100. 100. Inquire : annotation par des graphes Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 105
  101. 101. Inquire : interrogation Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 106
  102. 102. Le graphe / concept réponse Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 107
  103. 103. Afficher la réponse : document reconstruit Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 108
  104. 104. Discussion: web des données, web sémantique Le web des données  Plus de données  Format homogène  Processus continu d’enrichissement L’espoir / l’illusion : plus réaliste que le web sémantique  Annotations plus faciles  Ressources disponibles pour annoter, couvrant tout domaine  Faire émerger du sens de la quantité La réalité  Typer les données  Assurer des passerelles entre données (aligner, associer)  Les problèmes d’annotation demeurent Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 109
  105. 105. Convergences : les difficultés qui demeurent  Sur les données pour annoter  Relier les données => les typer => ontologies  Ontologie => point de vue sur le document  Extraire des triplets vs donner du sens  Sur l’annotation en général  Statut des annotations, droits % documents et auteurs  Qui annote, quand, pour qui  Place, stockage des annotations  Sur l’annotation sémantique  Orientation des interprétations, des usages, requêtes etc.  Gestion des évolutions  Guidage par le document (et adaption du schéma) vs par l’ontologieOct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 110
  106. 106. Convergences : les difficultés qui demeurent Outils d’annotation  Automatisation => articulation lexique-ontologie et/ou TAL  Architectures différentes selon usage prévus  En pleine expansion  Nécessite des développements en apprentissage et TAL Ce que je n’ai pas développé : exploiter le web 2.0  Les tags sont-ils des annotations ?  Méta-données ? Mots-clés ou pense-bête ?  Quel rapport à l’objet documentaire taggé ?  Folksonomies pour construire / remplacer les ontologies Oct 2012 - IST De la construction dontologies à lannotation sémantique - N. Aussenac-Gilles 111
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×