SlideShare a Scribd company logo
1 of 106
Download to read offline
Donner du sens à des documents semi-
structurés : De la construction d'ontologies
à l'annotation sémantique
        Nathalie Aussenac-Gilles, DR CNRS, aussenac@irit.fr




        À l’heure du web des données :
        1.       Donner du sens à des documents pour des logiciels
        2.       Pourquoi des ontologies ?
        3.       Comment ? apports du traitement automatique des langues
        4.       Annotation sémantique, extraction d’information : convergences
        5.       Web des données : nouveaux enjeux, problèmes connus

             Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   1
1 - Donner du sens à des
documents pour des logiciels


Qu’est que cela signifie ?
… à l’heure du web sémantique
… avec des ontologies
… à l’heure du web des données




     Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   2
Donner du sens à des documents numériques
   Rendre accessible à un programme leur “contenu”
   … les informations, les connaissances que l’humain y reconnait
   … pour les traiter en tenant compte de ce contenu



                                                        href
       <CV>
       <nom>
       </nom>                                         href
       <adresse>
       </adresse>
       <experience>

       </experience>
       <formation>
                                                                   Description documentaire
       </formation>                                                Schemas et DTD pour unifier
       </CV>

         Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   3
… à l’heure du web sémantique
   Normaliser les tags et faire référence à une ontologie pour
    échanger, comparer, mettre en relation
   Être précis, se mettre d’accord sur le sens
   Raisonner, exploiter des connaissances non explicites


                                                         Onto:collaboreAvec                                   Foaf
         <CV>                           dc:estAuteurDe
         P1 rdf:Type foaf:person
         P1 foaf:name ”‫”ﮇﮠﭿ‬
         P1 foaf:adress ”‫”ﭰﭜﭪﮇﮠﭿ‬
         Expe1 rdf:Type onto:experience                                                                Onto
         P1 onto:aExperience Expe1


         ….
         </CV>


          Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles      4
Comment produire les annotations ?




     Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   5
Comment produire les annotations ?
Indexation classique

3rd European Semantic Web Conference (ESWC2006)

The 3rd Annual European Semantic Web Conference (ESWC2006) will be held
    in Budva, Montenegro from the 11th - 14th June, 2006.
It will present the latest results in research and application in Semantic Web
    technologies (including knowledge markup languages, Semantic Web
    services, ontology management and more).
ESWC 2006 will also feature a special industry-oriented event providing
    European industry with an opportunity to become even more familiar with
    these technologies. It will offer a tutorial program, focusing on the latest in
    Semantic Web technologies.




          Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   6
Comment produire les annotations ?
Indexation classique -> indexation sémantique

Europe                          European [geographic area:Europe]          Semantic
              Technol           Semantic
Semanti
              Includi                                                      Web [semantic Web]
Web                             Web [semantic Web]
              Knowled           Conference [conference]
                                                                           Technology [technology]
Confere                                                                    Including [to include]
Annual        Markup            Annual
              Languag           European [geographic area:Europe]          Knowledge [knowledge]
Europe
Semanti       Semanti           Semantic                                   Markup
Web           Web               Web                                        Language [Markup Language]
Confere                         Conference [conference]                    Semantic
              Service           Budva [City:Budva]
Budva         Ontolog                                                      Web [semantic Web]
Montene                         Montene [geographic
              managem                area:Montenegro]                      Service
present                                                                    Ontology [Ontology]
              Feature           present [to present]
results
              Special           results [result]                           management [management]
Researc
Applica       Industr           Research [research]                        Feature [to feature]
                                Application [application]                  Special
Semanti       Oriente
Web           event                                                        Industrial [industrial]
                                                                           Oriented
              …                                                            Event [event]
                                                                           …



          Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   7
Comment produire les annotations ?
Une représentation sémantique de la page web




       Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   8
… à l’heure du web des données

   2 défis
       Extraire les triplets
       Les associer à des données existantes


                                       Onto:collaboreAvec                                                     Foaf
    <CV>
    (hasValue,”‫ ,”ﮇﮠﭿ‬foaf:name)        dc:estAuteurDe
    (hasValue,”‫,”ﭰﭜﭪﮇﮠﭿ‬foaf:adress)
    (rdf:Type, P1, foaf:person)
    (rdf:Type, Expe1, onto:experience)
    (onto:aExperience, P1, Expe1)                                                               Onto

    ….
    </CV>




            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles          9
Reconnaître des données existantes

   Des mots à des triplets
    spécifiques
   De triplets à des classes,
    des types
   Des triplets à des
    instances

   Reconciliation d’instances
   Alignement de concepts




         Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   10
2 – Pourquoi des ontologies ?




Nécessité de référentiels pour relier les données entre elles
Nécessité de la formalisation pour raisonner




      Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   11
Est-ce la fin des ontologies ?
  ===========================================
     1st International Workshop on
     Ontology Engineering in a Data-Driven World –OEDW 2012

     Full-day workshop at EKAW 2012 (Galway, Ireland)
     October 8th or 9th, 2012
     http://granvia.dia.fi.upm.es/oedw2012/
  ===========================================
     * Motivation*
     - Is the current data-driven world going to kill ontologies?
     - Are we navigating towards a shallow Web of Data?
     * Topics *
     - Guidelines, methods, and tools for Linked Data engineering
     - Methods for ontology/vocabulary reuse in the Linked Data context
     - Methods and techniques for ontology/vocabulary mapping and alignment in
     the Linked Data context
     - Guidelines, methods, and tools for RDB to RDF mappings
     - Life cycle management in the context of Linked Data
     - Creation of knowledge out of Linked Open Data
     - Ontology/vocabulary repositories
     - Empirical findings and statistics about ontologies underlying Linked Data
     …

        Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   12
Nécessité de référentiels pour lier les données

   Enjeux pour lier les données
       Reconnaître la même instance dans le même document
       Reconnaître la même classe dans une collection
       Reconnaître la même instance dans une collection
                                                                                 Geonames:city
                                                                                                            ??:books
   Phénomènes linguistiques associés
       Calcul de références
       Polysémie (quel est le sens d’une occurrence de terme ? Quel
        type sémantique lui associer ?)
       Synomymie (savoir qu’on parle de la même entité ou du même
        concept avec des termes différents)




          Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles        13
Ontologies : motivations

   Réutilisation

   Partage de la connaissance et communication
       Interopérabilité entre différents SBC
       Échange de connaissances entre systèmes


   Premières initiatives
       Infrastructure comme support à la réutilisation de connaissance
       «Knowledge Sharing Effort », ONTOLINGUA,...
       INTERLINGUA (KIF) comme langage pivot pour la traduction
        d’un langage vers un autre



        Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   15
Ontologies : historique

Ontologie PHILO. Partie de la métaphysique qui s’applique à l’être en
  tant qu’être, indépendamment de ses déterminations particulières
  (Le Petit Robert).
Taxinomie 1.DIDACT. Étude théorique des bases, lois, règles,
  principes, d’une classification. 2. Classification d’éléments (Le Petit
  Robert).
      Taxinomies en sciences naturelles
                                                                                      référant
                                                                                 Concept
Depuis Aristote : essence des choses,
points communs et différences                                        évoque
                                                                                                   Refère à

   Triangle sémiotique : signe, référant, référé
                                                                   signe
                                                                    Forme                                Référé
                                                                                    Dénomme
                                                             “Jaguar“

                                                                 [Odwen, Richards, 1923]


       Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles            16
Ontologies en Ingénierie des Connaissances


Ontologie Spécification normalisée représentant les classes des
objets reconnus comme existant dans le domaine. Construire
une ontologie, c’est aussi décider d’une manière d’être et
d’exister des objets.

   Modèles des connaissances d’un domaine pertinentes pour une
    application, une tâche donnée                                      FOND
   Conceptualisation de ces connaissances en classes génériques, relations
    et règles
   Application de principes de normalisation, de « bonne construction » et/ou
    référence à des classes ontologiques
   Réseau sémantique + axiomes
                                                                       FORME


         Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   17
D’un formulation linguistique à une représentation
formelle (1)




      Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   18
D’un formulation linguistique à une représentation
formelle : si on utilisait une ontologie ? (2)




      Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   19
Une ontologie permet de typer les données (3)




     Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   20
Une ontologie pour repérer les ambigüités (4)

   Exploiter les contraintes de l’ontologie formelle




         Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   21
Une ontologie pour définir avec précision (5)




                                        :NationalitéFrançaise rdfs:subClassOf :nationalité
                                        :français#1 rdf:type :NationaliteFrançaise




      Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   22
Autres intérêts d’utiliser une ontologie (5)

     Représenter les connaissances sous une forme plus
      synthétique (ex des proprités)
    :Homme rdfs:subClassOf :Personne
    :Femme rdfs:subClassOf :Personne
    :apourProfession rdfs:domain :Personne rdfs:range :Profession
    Regroupe les 2 définitions
    :apourProfession rdfs:domain :Homme rdfs:range :Profession
    :apourProfession rdfs:domain :Homme rdfs:range :Profession


     Pouvoir définir des classes par leurs propriétés :
         Définir “journaliste français”
                       Soit p tel que :
                       Personne(p) et (p : apourProfession :journaliste) et
                       (p :apourNationalité :NationalitéFrançaise),
                       alors :JournalisteFrançais(p)

            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   23
Ontologie vs thésaurus
                               Thésaurus SRLF et de la SFAR




hémopéritoine




        Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   24
Ontologie vs thésaurus
   hémopéritoine : « épanchement hématique localisé au niveau du péritoine »
                      Hiérarchie de concepts                                         Hiérarchie de relation
 ETAT_PATHOLOGIQUE                              ANATOMIE
  ETAT_PATHOLOGIQUE_LOCAL                         …                                       LOCALISATION
    LESION                                        ANA_TISSU_ENVEL                           à_côté_de
      adénopathie                                   capsule                                 à_l'extérieur_de
      …                                             duremère                                au_dessus_de
      épanchement                                   mésentère                               …
        épanchement gazeux                          peau                                    au_niveau_de
        épanchement liquidien                       …
           épanchement de pus                       péritoine
           épanchement hématique


                                              Liens
                 LESION                      (LOCALISATION)                       ANATOMIE


                                        Concept défini
                 épanchement hématique         (au_niveau_de)                       péritoine


Oct 2012 - IST                De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   25
Ontologie vs thésaurus
        fracture à la base du crâne
                    Hiérarchie de concepts                         Hiérarchie de relations
           LESION                 SITUATION                      LOCALISATION                   OBJET
             épanchement             angle                         à_côté_de                      …
             fracture                base                          à_l'extérieur_de               DE
                                     bord                          au_dessus_de                   …
           ANATOMIE_OBJET                                          …
            OS                                                     au_niv_de
             crâne                                                 …



                                                   Liens
           LESION       (LOCALISATION)        SITUATION

                                               SITUATION          (OBJET)         ANATOMIE_OBJET



                                   Concept défini
            fracture     (au_niveau_de)             base               (DE)           crâne


Oct 2012 - IST              De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   26
Une ontologie respecte des principes de
structuration … en principe …
   Fixer préalablement et précisément (Guarino 94)
    – les engagements ontologiques généraux : point de vue
    – les catégories de haut-niveau : appellations et significations (DOLCE)
    – le processus de raffinement de ces engagements et définitions des
       catégories
    – la spécialisation de ces catégories


   Déterminer une ontologie revient à fixer la signification
    attendue des primitives d’un domaine (Guarino 96)
    – les primitives n’existent pas en tant que telles dans un domaine
       d’expertise



      Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   27
Modéliser, c’est faire des choix

                                         1.     Quelle différence entre patient et
                                                patiente ?

                                         2.     Un concept « primitif » (patient), deux
                                                caractéristiques différentes,
                                                différenciant ainsi les deux concepts
                                                « définis ».
                                                         3.  La différence est
                                                             explicitement liée à un
                                                             attribut (sexe) dont la
                                                             valeur diffère.




     Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   28
Principes de normalisation d’Archonte
(Bachimont 2000)


   Principes de différenciation
       Point commun entre 1 concept et son père
       Différence entre 1 concept et son père
       Points communs entre 1 concept et ses frères
       Différences entre un concept et ses frères
   Les différences ne sont pas forcément
    représentées à l’aide de propriétés mais au
    moins par des commentaires



        Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   29
Ontologies - Quelques exemples en 2006
       Ontologies générales ou génériques (haut niveau)
             WordNet / EuroWordNet, http://www.cogsci.princeton.edu/~wn
             The Upper Cyc Ontology, http://www.cyc.com/cyc-2-1/index.html
             IEEE Standard Upper Ontology, http://suo.ieee.org/
             DOLCE, http://www.loa-cnr.it/ontologies/DLP_397.owl
             LRI-Core: a core ontology for law

       Ontologies de domaine ou spécifiques à des applications
             RDF Site Summary RSS, http://groups.yahoo.com/group/rss-dev/files/schema.rdf
             UMLS, http://www.nlm.nih.gov/research/umls/
             RETSINA Calendering Agent, http://ilrt.org/discovery/2001/06/schemas/ical-full/hybrid.rdf
             AIFB Web Page Ontology, http://ontobroker.semanticweb.org/ontos/aifb.html
             Web-KB Ontology, http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
             Dublin Core, http://dublincore.org/

       Meta-Ontologies
             Semantic Translation, http://www.ecimf.org/contrib/onto/ST/index.html
             Evolution Ontology, http://kaon.semanticweb.org/examples/Evolution.rdfs

       Ontologies au sens large
             Agrovoc, http://www.fao.org/agrovoc/
             Art and Architecture Thesaurus, http://www.getty.edu/research/tools/vocabulary/aat/
             UNSPSC, http://eccma.org/unspsc/
             DTD standardizations, e.g. HR-XML, http://www.hr-xml.org/




      Oct 2012 - IST         De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   30
Ontologies pour le web des données
   DBPedia, une ontologie à l’échelle du web !
       Construction
           à partir des Info-box de Wikipedia
           Extraction d’information à partir de documents semi-structurés
       L’ontologie
           359 classes
           800 object properties
           859 datatype properties
           116 specialized datatype properties
           45 owl:equivalentClass, 31 owl:equivalentProperty mappings
       La base de connaissances (pour l’anglais) = 3.77 million things
           2.35 million are classified in a consistent Ontology
           764,000 persons, 573,000 places, 333,000 creative works (including
            112,000 music albums, 72,000 films and 18,000 video games),
            192,000 organizations (including 45,000 companies and 42,000
            educational institutions), 202,000 species and 5,500 diseases.
           Versions disponibles en 111 langues = 20.8 million things, out of
            which 10.5 mio are interlinked with concepts from the English
            DBpedia.
                                                        http://wiki.dbpedia.org/About
            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   34
Vocabulaires pour le web des données
   Dmoz
    The Open Directory Project is the largest, most comprehensive human-
    edited directory of the Web. It is constructed and maintained by a vast,
    global community of volunteer editors.

       Associé au web2.0 et à l’annotation collaborative
       Organiser les rubriques, les catégories d’annotation
       structure.rdf.u8.gz - category hierarchy information
       http://www.dmoz.org

   Freebase
    Freebase is an open, Creative Commons licensed graph database with
    more than 23 million entities. An entity is a single person, place, or thing.
    Freebase connects entities together as a graph.
       Structure : données structurées selon un SCHEMA en domaines
        / types (concepts) / properties
       Pas vraiment de sémantique des types

          Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   35
Ontologies pour le web sémantique

      Écrites en OWL ou RDFs
      Accessibles sur le web
            Identifiants : URI
            Importent d’autres ontologies


       <owl:Class rdf:ID= “wineOnto:Winery”/>
       <owl:Class rdf:ID= wineOnto:PotableLiquid »/>

       <owl:Class rdf:ID="Wine">
       <rdfs:subClassOf rdf:resource="food:PotableLiquid"/>
       <rdfs:label xml:lang="en">wine</rdfs:label>
       <rdfs:label xml:lang="fr">vin</rdfs:label> ...
       </owl:Class>
       Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   36
3 – Comment ? Apports du TAL


Le problème : donner du sens à des documents
Hypothèses :
       c’est articuler langue et représentations sémantiques

       les représentations sémantiques sont mieux définies dans

         une ontologie
L’approche : extraire des informations/connaissances des textes
Les outils : logiciels de Traitement Automatique des langues




      Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   37
Construire vs peupler une ontologie
                                              Ontology Learning
Construction d‘ontologie                      Ontology Creation & Development
Construction d‘ontologie
Identifier des indices de prédicats
Analyse linguistique pour extraire des
(catégories, attributs, propriétés)
prédicatsde leur représentation dans
Décider (catégories, attributs,
propriétés) à partir de textes
l’ontologie                                           Extraire
                                                      Classes & Relations




 Peuplement d‘ontologie                                                                 Extraire (Annoter)
                                                                                        Instances
 Extraire des indices linguistiques
 d’instances de concepts de
 l’ontologie
 Annoter
                                                      Ontology Population
                                                      Knowledge Base Generation

           Oct 2012 - IST      De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   38
Construire vs peupler une ontologie
  Hugo est heureux que son grand-père René l’accompagne pour
  retrouver sa mère Rosie.

Je crée l’ontologie                                Je décris des instances
 Classes                                           Classes / propriétés connues

 Propriétés des classes                                     Personne
 Relations binaires
                                                             PereDe; MereDe
                                                             GrandParentDe

     Personne
                                                       Instances identifiées
                                                             Hugo, René, Rosie
     PereDe ou MereDe
     GrandParentDe                                    Relations entre instances
     AppartientMemeFamilleQue                               GrandPereDe(René, Hugo)
                                                             MereDe(Rosie,Hugo)
                                                             PereDe(René, Rosie)

         Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   39
Les textes pour construire ou peupler
   Construire le schéma
                                                                                               Ontologie
                                                 Indices
                                                 linguistiques

                                                      RTO : ressource termino-ontologique
   Peupler par des instances                         Où stocker les indices linguistiques ??
                                                      Et les patrons/ logiciels pour les trouver ?

                                                                                   Ontologie
                                     Indices
                                     linguistiques
                                                                                         Instances
                                       RTO


         Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   40
Trouver les formulations linguistiques
  Ressource



            LESION                     LOCALISATION              ANATOMIE                CONCEPT



    épanchement hématique (au_niveau_de) péritoine

                                                                                                         système
                                hémopéritoine                                              terme


                                                                                                                              texte
L'échographie abdominale retrouve une contusion splénique et un hémopéritoine. Traumatisme abdominal avec une fracture de rate et un
hémopéritoine abondant, ayant nécessité une splénectomie en urgence. Un nouvel état de choc apparaît associé à syndrome
compartimentaire abdominal (hémopéritoine + hématome rétropéritonéal)) justifiant la laparotomie exploratrice. L'évacuation de
l'hémopéritoine ne permet pas de mettre en évidence une cause nette au saignement ;Instabilité hémodynamique initiale, avec TA 80 / 60
et fréquence cardiaque à 120 / min en relation avec des pertes sanguines sur les foyers de fractures (échographie abdominale normale,
absence d‘ hémopéritoine ou de lésion viscérale intrapéritonéale évidente)).deux échographies abdominales successives un
hémopéritoine évolutif, sans pneumopéritoine, ainsi qu'un décollement péricardique postérieur.un traumatisme thoraco-abdominal avec
fracture des arcs postérieurs des 7e, 8e et 9e côtes droites, contusion hépatique au niveau des segments VI-VII, hémopéritoine de
moyenne abondance, contusion splénique,Instabilité hémodynamique nécessitant remplissage, transfusion de culots globulaires, PFC et
plaquettes dans le cadre d'un hémopéritoine sur fracture du bassin.

               Oct 2012 - IST                     De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles    41
Trouver les variantes de formulation
    RTO

           sevrage              (OBJET)           Noradrénaline                         CONCEPT
                       sevrage_Noradrénaline



      sevrage en noradrénaline             sevrage de la noradrénaline                    termes

              sevrage Adj? [de|en] la? noradrénaline                                                      système
                 sevré de noradrénaline                                                   patrons

                   noradrénaline être Adv? sevré

                                                                                                                          texte
sevrage en noradrénaline le 23 / 10. Stabilité cardiorespiratoire, le sevrage de la Noradrénaline est fait à J5 de la
réintervention et l'extubation est réalisée à J6. Evolution favorable avec sevrage rapide en Noradrénaline le 20 / 06 /
99. Stabilité hémodynamique initiale correcte avec sevrage progressif en Noradrénaline obtenu à J3. Les suites du
choc hypovolémique hémorragique sont simples, avec sevrage de noradrénaline à J3 et extubation à J2. L'évolution
est alors favorable avec Instauration d'une corticothérapie ayant permis un sevrage rapide de la Noradrénaline, La
patiente est sevrée de noradrénaline le 16 / 06 / 00. Le patient est sevré de Noradrénaline le 13 / 05 / 00. La
Noradrénaline est sevrée dans la nuit du 20 au 21 / 01. Après remplissage vasculaire par 1000 cc de Plasmion et
1000 cc d'Elohes, la Noradrénaline est rapidement sevrée


               Oct 2012 - IST                 De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   42
Couches de TAL pour construire une ontologie
   (Buitelaar, EACL 2006)



Toute personne a au plus 1 mère                                                               Axiomes, règles
Disjoint(personne, ville)                                                               Schémas d’axiomes
estParentDe(Personne, personne) ;
habiteDans(personne, ville)
                                                                                               Autres relations
PèreAdoptif est_un père                                                           Hiérarchie de concepts
personne est_un êtreVivant
C:père = {René,…}, {personne qui a 1 enfant}                                                                   Concepts
{père, papa, géniteur}                                                    Synonymes (multilingues)
{mari, conjoint, époux}
Personne, père, père adoptif,                                                                                   Termes
enfant, grand-parent
                                                                             Séquence de mots (texte)

             Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles        43
Extraire des termes

   Termes
       Unité lexicale complexe qui fait sens dans le domaine
       Candidats
           Père                                                  connaissance
           Père adoptif                                          acquisition de connaissances
           Père adoptif de l’enfant                              Acquisition de K du domaine
           .                                                     Acquisition de connaissances du jour

   Difficultés
       Trop de candidats : comment sélectionner ?
       Quels sont les bons termes pour mon ontologie ?
       Notion de termhood (« termitude ») = importance, représentativité
        du candidat dans le domaine



            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   44
Techniques pour identifier des termes

   Linguistiques
       = caractériser la syntaxe des termes par des patrons
        N, N prep det N, Adj N; N adj, …
       Exploiter les frontières : det, prep, verbes
       Exploiter les noms propres, mots vides …
   Statistiques
       Co-occurrences, segments répétés
       Comparaison de la fréquence dans le corpus % à la langue
        générale
   Hybrides
       Utiliser les statistiques pour filtrer les termes
       Combiner patrons + co-occurrences pour trouver des candidats


          Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   45
Extracteurs de termes « linguistiques »

   Patrons appris sur corpus annoté : ANA (Daille)
   Frontières négatives Lexter ( Bourigault, 2000)
   Patrons exploitant les dépendances grammaticales :
    SYNTEX (Bourigault, 2003)




        Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   46
TermoStat (Drouin, 2007) : ex de patrons




      TermoStat Web
       http://olst.ling.umontreal.ca/~drouinp/termostat_web/
       Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   47
Termostat : score de spécificité




     Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   48
Termostat : Critères de sélection des termes
   Fréquence Spécificité
   Relations syntaxiques entre termes /productivité




         Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   49
Couches de TAL pour construire une ontologie


Toute personne a au plus 1 mère                                                            Axiomes, règles
Disjoint(personne, ville)                                                               Schémas d’axiomes
estParentDe(Personne, personne) ;
habiteDans(personne, ville)
                                                                                           Autres relations
PèreAdoptif est_un père                                                              Hiérarchie de concepts
personne est_un êtreVivant
C:père = {René,…}, {personne qui a 1 enfant}                                                      Concepts
{père, papa, géniteur}                                                         Synonymes (multilingues)
{mari, conjoint, époux}
Personne, père, père adoptif,                                                                      Termes
enfant, grand-parent
                                                                                   Séquence de mots (texte)
                     De la construction d'ontologies à l'annotation sémantique -
             Oct 2012 - IST              N. Aussenac-Gilles                                        50
Recherche de synonymes en français

   Ressources exploitables
       Dictionnaires de synonymes (Dicosyn (U. de Caen, ~200 000
        couples)
       Ressources lexicales (Synset de Wordnet)
   Logiciel SYNOTERM (Hamon, 2006) :
       Exploiter la structure des termes et des dictionnaires de
        synonymes + vérifier en corpus:
           Si A et B sont synonymes,
           Si NA et NB existent en corpus
           Alors proposer NA synonyme de NB
   Problème : la relation de synonymie est contextuelle
       Identifier des relations de synonymie pertinentes
           pour le domaine
           pour l’application


            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   51
Synonymie inter-langue

   Techniques statistiques
       Clustering
           Classer les termes selon leur distribution
           2 termes sont groupés dans une classe s’ils sont utilisés dans les
            mêmes contextes
       Classification
           Associer des candidats termes à des classes déjà définies
   Exploiter des corpus parallèles
       Même texte exprimé dans 2 langues




            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   52
Couches de TAL pour construire une ontologie
   (Buitelaar, EACL 2006)


Toute personne a au plus 1 mère                                                               Axiomes, règles
Disjoint(personne, ville)                                                               Schémas d’axiomes
estParentDe(Personne, personne) ;
habiteDans(personne, ville)
                                                                                               Autres relations
PèreAdoptif est_un père                                                           Hiérarchie de concepts
personne est_un êtreVivant
C:père = {René,…}, {personne qui a 1 enfant}                                                                   Concepts
{père, papa, géniteur}                                                    Synonymes (multilingues)
{mari, conjoint, époux}
Personne, père, père adoptif,                                                                                   Termes
enfant, grand-parent
                                                                             Séquence de mots (texte)

             Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles        53
Typologie des méthodes de structuration

   Méthodes structurelles
       Exploitent sur la structure syntaxique interne des candidats
        termes («endotermes»)
           Composition syntaxique
           Variation morpho-syntaxique, lexicale


   Méthodes contextuelles
       Exploitent les contextes de co-occurrence des candidats termes
        («exotermes»)
           Locales : une relation extraite pour une occurrence
             Patrons
           Globales : des relations extraites à partir d’un ensemble
            d’occurrences
             Cooccurrence statistique
             Analyse distributionnelle



            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   54
Méthode structurelle : dépendance syntaxique

   Dépendance syntaxique
       Chaque terme complexe se décompose en une Tête et une
        Expansion
       Séries paradigmatiques


        ontologie ~                              ~ de base de connaissance
        T ---- disponible                        E ---- concepteur
           ---- définie                              ----   conception
           ---- explicite                            ----   construction
           ---- formelle                             ----   maintenance
           ---- référentielle                        ----   raffinement
           ---- régionale                            ----   structure
           ---- résultante                           ----   usage
           ---- spécialisée                          ----   validation
           ---- universelle                          ----   vérification


         Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   55
« Tous les Nom Adj sont des Nom » est faux
CT : syndrome ~                                                        Taxinomie de concepts
38    syndrome septique                                                SYNDROME
35    syndrome infectieux                                                SYNDROME_CLINIQUE
                                                                           anasarque
29    Syndrome alvéolaire
                                                                           apnée du sommeil
28    syndrome dépressif                                                   …
27    syndrome confusionnel                                                syndrome bronchique
23    syndrome de défaillance
                                                                           syndrome cave
                                                                           syndrome confusionnel
19    syndrome bilatéral                                                   …
18    syndrome inflammatoire                                             SYNDROME_MIXTE
17    Syndrome fébrile                                                     état de mort encéphalique
                                                                           rhabdomyolyse
16    syndrome de défaillance multiviscérale
                                                                           …
14    syndrome pyramidal                                                   syndrome de défaillance multiviscérale
14    syndrome alvéolaire bilatéral                                        syndrome de détresse respiratoire aiguë
14    Syndrome abdominal
                                                                           …
                                                                         SYNDROME_PARACLINIQUE
14    syndrome occlusif                                                    syndrome alvéolaire
 11   syndrome de sevrage                                                  syndrome alvéolo-interstitiel
 …    …                                                                    …



                Oct 2012 - IST        De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   56
Méthode structurelle : variation

   Principe général (Daille, 2009)
        Si
             CT1 = [ A B1 ]
             CT2 = [ A B2 ]
        Et
           B1 REL B2
        Alors
           CT1 REL CT2
   Exemples
       Variation morphosyntaxique
             transférer en réanimation  transfert en réanimation
             patient transféré  transfert du patient
       Variation lexicale
             hausse de la température  augmentation de la température

             Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   57
Variation morphosyntaxique

   Type de relations
       verbe – nom (transférer un = transfert du)
       nom – adjectif (transfert de / transférable)
       …
   Méthodes exogènes : avec ressources lexicales
       Celex
       Verbaction (ERSS, N. Hathout) : verbe – nom
   Méthodes endogène : sans ressource externe
           Règles de troncation + validation sur corpus




            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   58
Variation morphosyntaxique : des résultats

   Une productivité réduite, mais des résultats fiables
       Corpus REA : environ 200 couples SV-SN

        arrêter les antibiotiques, arrêt des antibiotiques, antibiotiques arrêtés
        drainer un pneumothorax, drainage du pneumothorax
        lever une atélectasie, levée de l’atélectasie


       Corpus Code Civil : environ 100 couples SV-SN

        le conseil de famille autorise, autorisation du conseil de famille
        établir la filiation, filiation établie
        révoquer la donation, révocation de la donation, donation révoquée




           Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   59
Couches de TAL pour la construction
   d’ontologies (Buitelaar, EACL 2006)
Toute personne a au plus 1 mère                                                              Axiomes, règles
Disjoint(personne, ville)                                                              Schémas d’axiomes
estParentDe(Personne, personne) ;
habiteDans(personne, ville)
                                                                                              Autres relations
PèreAdoptif est_un père                                                          Hiérarchie de concepts
personne est_un êtreVivant
C:père = {René,…}, personne qui a 1 enfant}                                                                   Concepts
{père, papa, géniteur}                                                   Synonymes (multilingues)
{mari, conjoint, époux}
Personne, père, père adoptif,                                                                                  Termes
enfant, grand-parent
                                                                            Séquence de mots (texte)

            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles        60
Méthodes contextuelles locales :
patrons de relation
     Exemples :
                           un … est un … qui
                           tous les …, sauf …,
                           … et …
     Problèmes
           Généralités vs. spécificité (domaine, type de textes)
                 Relations
                 Patrons
           Prétraitements : quels indices exploiter ?
                 Lexique, POS, relations syntaxiques SUJET-OBJET…,
           Valider des patrons généraux
                 Cf. Cameléon
           Acquérir des patrons spécifiques
                 Technique itérative (Hearst, 1992)
                 Apprentissage automatique
          Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   61
Méthodes contextuelles globales :
cooccurrence

   Méthodes classiques en informatique documentaire
       Création automatique de thesaurus
   Cooccurrence statistique
       1er ordre
           Les unités qui cooccurrent avec le mot pivot dans une fenêtre
            donnée (phrase, paragraphe, +- n mots)
       2ème ordre
           Les unités qui ont les mêmes cooccurrents que le mot pivot




            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   62
Méthode contextuelle globale :
analyse distributionnelle

   Analyse distributionnelle (Zellig S. HARRIS)
       Deux termes sont rapprochés s’ils apparaissent dans les mêmes
        contextes syntaxiques.


                           ontologie                        taxinomie
                                            contextes
                                       insertion dans ~
                                       classer dans ~
                                       structurer ~
                                       organisation de ~
                                       réaliser ~



          Oct 2012 - IST    De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   63
Analyse distributionnelle :
choix méthodologiques

   Analyse syntaxique en entrée
       syntagmes nominaux / syntagmes verbaux
   Données (unités rapprochées, contexte)
       structures élémentaires / structures complexes
   Mesures de proximité
       Jaccard / Jaccard pondéré / …
   Types de regroupement
       Couples / classes / cliques / …




          Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   64
Logiciels

   Extraction de relations
       Caméléon -> démo
       Terminoweb http://termino.iit.nrc.ca/index.jsp


   Chaînes de traitements
       text2Onto                    http://ontoware.org/projects/text2onto/
       Un projet européen : NEON            http://www.neon-project.org/
       Un projet pour le français : DAFOE            http://dafoe4app.fr/




          Oct 2012 - IST                                                                                    65
                           De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles
Couches de TAL pour la construction
    d’ontologies (Buitelaar, EACL 2006)
Toute personne a au plus 1 mère
Si Pere(x,y) et Pere(y,z) alors GrandPere(X,Z)                                               Axiomes, règles
Disjoint(personne, ville)                                                              Schémas d’axiomes
estParentDe(Personne, personne) ;
habiteDans(personne, ville)
                                                                                              Autres relations
PèreAdoptif est_un père                                                          Hiérarchie de concepts
personne est_un êtreVivant
C:père = {René,…}, personne qui a 1 enfant}                                                                   Concepts
{père, papa, géniteur}                                                   Synonymes (multilingues)
{mari, conjoint, époux}
Personne, père, père adoptif,                                                                                  Termes
enfant, grand-parent
                                                                            Séquence de mots (texte)

            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles        66
4 - Annotation sémantique,
  extraction d’information :
  convergences

La diversité des annotations
L’annotation de documents textuels : de la langue aux
    représentations formelles
Quelques logiciels d’annotation
À l’heure du web des données




Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   67
Annotations et méta-données
   Annotation comme objet
       Information associée à une page existante
       Information manipulable par un système informatique
       Information qui peut être séparée des données annotées

   Annotation vs méta-donnée vs index
       Méta-donnée
              Plutôt normalisée, catégories définies a priori et souvent séparée du
               document (fichier à part)
              Ex : Dublin Core
       Annotation
              Plutôt liée au domaine, définie A LA MAIN ou automatiquement, APRES
               création du document, complète le document
       Index
              Plutôt lié au contenu, calculé AUTOMATIQUEMENT à partir du document
               (APRES création), stocké à part, se substitue au document


            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   68
Emprunté à Y. Prié, cours M2R 2005-2006


Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   69
Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   71
Processus d’annotation sémantique
    2 types d’annotations
        Associer des concepts à tout le document ou à chaque
         paragraphe (annotation conceptuelle)
        Localiser précisément les mots correspondant aux concepts
         (annotation sémantique)




    2 types de processus / de logiciels
        Manuel : interface pour « poser » des annotations (ex: Magpie,
         Notator)
        Automatique : logiciel de production d’un index sémantique

         Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   72
Annotation sémantique de documents textuels
   Annotation comme processus
   But
       Construire une représentation de chaque document
        formée de concepts (et de relations entre concepts)
   Les indices linguistiques comme pivots
       Retrouver des traces linguistiques de concepts /
        d’instances de concepts / dans les textes
       Retrouver des traces linguistiques de relations

                               Indices
                               linguistiques




          Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   73
Processus d’annotation sémantique
                                                          Indices pour annoter
                                                               termes importants ou mots clés
                                                                présents dans l’ontologie
                                                               = étiquettes des concepts
                                                                (labels ou Id)
                                                          Annoter
                                                               Enregistrer les concepts
                                                                associés
                                                          Résultat de l’annotation
                                                           (suivant les approches)
                                                               Liste de concepts
                                                               Liste d’instances de concepts
                                                               Graphe de concepts
                                                               Graphe d’instances de
                                                                concepts

     Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   74
Graphe d’annotation

   Graphe de relations entre
    instances
   Graphe connexe
   Ensemble de triplets
    conformes au modèle de
    l’ontologie




        Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   75
Processus d’annotation



   Ex de difficultés
       Ontologie : concept « rouler » > comment reconnaître roulage ?
       Ontologie : concepts « perte de puissance » et « puissance » :
        comment choisir « perte de puissance » ?
       Ontologie : « perte de puissance » EST-UN « problème » : faut-il
        annoter avec le concept le plus spécifique ? Le plus générique ?
        Les deux ?
       Phrase : (à haut régime) :
           parenthèses: faut-il en tenir compte ? Comment les interpréter ?
           Fin de phrase : comment savoir que « haut régime » est associé au
            moteur et pas à « autoroute » ?

            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   76
Processus d’annotation : fonctions de TAL
essentielles
   Calculer la distance entre 2 termes
       Distances entre chaînes de caractères (dist lexicales)
           Basée sur des n-grammes, souvent 3-grammes : chat et chaton ont
            en commun {cha, hat} (mesure de Lin, 1998)

          Distance d’édition (Levenshtein, 1996)
        E(T1,T2) = nbre d’opérations pour passer de T1 à T2
          String matching (Maedche et Staab, 2002)


       Distances entre termes composés de plusieurs mots
           Distance entre vecteurs de mots




            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   77
Couches de TAL pour l’annotation
   sémantique (Buitelaar, EACL 2006)
Toute personne a au plus 1 mère                                                              Axiomes, règles
Disjoint(personne, ville)                                                              Schémas d’axiomes
estParentDe(Personne, personne) ;
habiteDans(personne, ville)
                                                                                              Autres relations
PèreAdoptif est_un père                                                          Hiérarchie de concepts
personne est_un êtreVivant
C:père = {René,…}, personne qui a 1 enfant}                                                                   Concepts
{père, papa, géniteur}                                                   Synonymes (multilingues)
{mari, conjoint, époux}
Personne, père, père adoptif,                                                                                  Termes
enfant, grand-parent
                                                                            Séquence de mots (texte)

            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles        78
Annotation sémantique avec TextAnnot
http://themat2i.univ-pau.fr:8080/TextAnnot-WWW/index.jsp

   Le processus
       Projette les termes de la RTO des fiches à annoter
           indexation avec le moteur Lucène
           distance entre termes basée sur des trigrammes
       Génère des instances de termes
       Pour chaque terme, génère une instance DU (seul) concept associé
       Met en relation les instances de concepts reconnus lorsque les termes sont
        proches dans la même phrase
       Les met en relation avec le type de relation proposé dans l’ontologie

   Le résultat
       Graphe d’instances, connexe
       Ensemble de triplets d’instances ajoutées à l’ontologie




            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   79
Annotation sémantique avec TextAnnot
http://themat2i.univ-pau.fr:8080/TextAnnot-WWW/index.jsp




          Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   80
Cycle de vie des annotations
 Gestion des évolutions des annotations corpus
 Assurer la cohérence entre ontologie / annotation et

Nouveaux documents                                                                  Nouveaux concepts
                                                                                    Nouvelle terminologie




         Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   81
Outils d’annotation
   Annotation en RDF
       Annotea
             W3C
             Protocole de transfert d’annotation vers/de un serveur central
             Un schéma minimal, extensions possibles, classement des topics
             Implémentations : Amaya
   Annotation sémantique en RDFs
       CREAM (CREAting Metadata)
             Framework pour l’annotation / édition
             Notion de méta-données relationnelle (ie. basées sur les ontologies)
       Ontomat
             http://annotation.semanticweb.org/tools/ontomat
   Annotation sémantique à l’aide de graphes conceptuels
       Web Knowledge Base – http://www.webkb.org/


        Oct 2012 - IST    De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   82
CREAM




   Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   83
KIM (Kyriakov et al., 2004)

   But = annoter des pages web
   Implémentation = plug-in du navigateur
   Mise à disposition d’une ontologie “générale” qui renvoie
    à des noms propres (lieux, personnes, entreprises, etc)
   Disponible à http://www.ontotext.com/kim




      Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   84
KIM




      Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   85
Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   86
Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   87
Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   88
Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   89
5 – à l’heure du web des données

      Nouveaux enjeux
           Associer données et ontologies
           Annoter avec des ontologies peuplées de données
           Extraire des données pour annoter
           Annoter pour naviguer
      Nouveauté
           Quantité, disponibilité des données
      Continuité des problèmes linguistiques
           Ambigüité, références, variation, …



  Oct 2012 - IST    De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   90
DBPedia Spotlight

    DBpedia Spotlight is a tool for annotating mentions of DBpedia resources
    in text, providing a solution for linking unstructured information sources to
    the Linked Open Data cloud through DBpedia.
    http://en.wikipedia.org/wiki/DBpedia_Spotlight

    Début en Juin 2010, réalisé par les chercheurs du Web Based
     Systems Group de la Free University of Berlin
    Disponible pour l’anglais, internationalisation en cours
    Open source web service
        Spotting: Keyphrase Extraction and Named Entity Recognition
        Desambiguation : choisit la bonne classe en fonction du contexte
        Annotation : retourne les résultats de l’annotation avec le “meilleur” concept pour
         chaque expression annotée
        Candidats : retourne toutes les possibilités d’annotation de chaque expression
                                                        http://dbpedia-spotlight.github.com/demo/#

             Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   91
Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   92
Fred : extraire et annoter par des graphes
     FRED      http://wit.istc.cnr.it/stlab-tools/fred/
     analyse des phrases en langage naturel
          bien formées en anglais (verbe)
     produit des fragments d'ontologies et de données liées
      en RDF/OWL
     Principes
          reconnaissance des relations du verbe (FrameNet et VerbNet)
          représentation logique compatible avec DRT (discourse
           representation theory)
          application de patrons de conception d'ontologie (ontology design
           patterns) pour bien former les fragments
     Analyseurs utilisés
          C&C http://svn.ask.it.usyd.edu.au/trac/candc
          Boxer http://svn.ask.it.usyd.edu.au/trac/candc/wiki/boxer
          Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   93
Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   94
Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   95
Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   96
Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   97
Tipalo : extraire des graphes locaux

   Tipalo                             http://wit.istc.cnr.it/stlab-tools/tipalo/
   But :
       générer un graphe d’entités d’une page Wikipedia
       Sorte « d’annotation » de la page
       Graphe RDF composé de rdf:type, rdfs:subClassOf, owl:sameAs,
        et owl:equivalentTo
   Méthode
       Utilise FRED
       Affecte automatiquement un type aux entités nommées




          Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   98
http://en.wikipedia.org/wiki/Isabelle_Huppert




       Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   99
Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   100
Annoter pour naviguer via les données

   Aemoo           http://wit.istc.cnr.it/aemoo/index.html
   But : recherche exploratoire sur le Web.
   Entrée : des mots clés
   Résultat : réseau autour de cette entité
   Sources exploitées :
       Les textes de Wikipedia, Twitter, et Google News
       Plus riche que DBpedia (qui représente seulement 7de
        Wikipedia).




          Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   101
Aemoo n’aime que les entités, pas les classes 




     Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   102
Aemoo aime bien les entités 




     Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   103
Inquire : intelligent textbook
http://www.aaaivideos.org/2012/inquire_intelligent_textbook/

                                                                           Ontologie de 5000
                                                                            concepts
                                                                           Editeur de graphes
                                                                           Annotation
                                                                            manuelle




        Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   104
Inquire : annotation par des graphes




     Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   105
Inquire : interrogation




     Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   106
Le graphe / concept réponse




     Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   107
Afficher la réponse : document reconstruit




     Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   108
Discussion: web des données, web sémantique
   Le web des données
       Plus de données
       Format homogène
       Processus continu d’enrichissement
   L’espoir / l’illusion : plus réaliste que le web sémantique
       Annotations plus faciles
       Ressources disponibles pour annoter, couvrant tout domaine
       Faire émerger du sens de la quantité
   La réalité
       Typer les données
       Assurer des passerelles entre données (aligner, associer)
       Les problèmes d’annotation demeurent


          Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   109
Convergences : les difficultés qui demeurent

       Sur les données pour annoter
                Relier les données => les typer => ontologies
                Ontologie => point de vue sur le document
                Extraire des triplets vs donner du sens
       Sur l’annotation en général
                Statut des annotations, droits % documents et auteurs
                Qui annote, quand, pour qui
                Place, stockage des annotations

       Sur l’annotation sémantique
                Orientation des interprétations, des usages, requêtes etc.
                Gestion des évolutions
                Guidage par le document (et adaption du schéma) vs par
                 l’ontologie

Oct 2012 - IST               De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   110
Convergences : les difficultés qui demeurent

   Outils d’annotation
       Automatisation => articulation lexique-ontologie et/ou TAL
       Architectures différentes selon usage prévus
       En pleine expansion
       Nécessite des développements en apprentissage et TAL

   Ce que je n’ai pas développé : exploiter le web 2.0
       Les tags sont-ils des annotations ?
           Méta-données ? Mots-clés ou pense-bête ?
           Quel rapport à l’objet documentaire taggé ?
       Folksonomies pour construire / remplacer les ontologies




            Oct 2012 - IST   De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles   111

More Related Content

What's hot

Langage RDF/RDFs
Langage RDF/RDFsLangage RDF/RDFs
Langage RDF/RDFs
Rached Krim
 

What's hot (20)

These
TheseThese
These
 
Chp1- Introduction aux Technologies Web et SOA
Chp1- Introduction aux Technologies Web et SOAChp1- Introduction aux Technologies Web et SOA
Chp1- Introduction aux Technologies Web et SOA
 
Hadoop
HadoopHadoop
Hadoop
 
Introduction to Graph Databases
Introduction to Graph DatabasesIntroduction to Graph Databases
Introduction to Graph Databases
 
Application of Ontology in Semantic Information Retrieval by Prof Shahrul Azm...
Application of Ontology in Semantic Information Retrieval by Prof Shahrul Azm...Application of Ontology in Semantic Information Retrieval by Prof Shahrul Azm...
Application of Ontology in Semantic Information Retrieval by Prof Shahrul Azm...
 
Partie2BI-DW2019
Partie2BI-DW2019Partie2BI-DW2019
Partie2BI-DW2019
 
Word2Vec
Word2VecWord2Vec
Word2Vec
 
RDF, linked data and semantic web
RDF, linked data and semantic webRDF, linked data and semantic web
RDF, linked data and semantic web
 
A Simple Introduction to Neural Information Retrieval
A Simple Introduction to Neural Information RetrievalA Simple Introduction to Neural Information Retrieval
A Simple Introduction to Neural Information Retrieval
 
File Format Benchmark - Avro, JSON, ORC & Parquet
File Format Benchmark - Avro, JSON, ORC & ParquetFile Format Benchmark - Avro, JSON, ORC & Parquet
File Format Benchmark - Avro, JSON, ORC & Parquet
 
Ontology development in protégé-آنتولوژی در پروتوغه
Ontology development in protégé-آنتولوژی در پروتوغهOntology development in protégé-آنتولوژی در پروتوغه
Ontology development in protégé-آنتولوژی در پروتوغه
 
Building a Knowledge Graph using NLP and Ontologies
Building a Knowledge Graph using NLP and OntologiesBuilding a Knowledge Graph using NLP and Ontologies
Building a Knowledge Graph using NLP and Ontologies
 
Text Similarity
Text SimilarityText Similarity
Text Similarity
 
Jena Programming
Jena ProgrammingJena Programming
Jena Programming
 
Langage RDF/RDFs
Langage RDF/RDFsLangage RDF/RDFs
Langage RDF/RDFs
 
Ontologie concept applications
Ontologie concept applicationsOntologie concept applications
Ontologie concept applications
 
Property graph vs. RDF Triplestore comparison in 2020
Property graph vs. RDF Triplestore comparison in 2020Property graph vs. RDF Triplestore comparison in 2020
Property graph vs. RDF Triplestore comparison in 2020
 
ORC Files
ORC FilesORC Files
ORC Files
 
File Format Benchmark - Avro, JSON, ORC & Parquet
File Format Benchmark - Avro, JSON, ORC & ParquetFile Format Benchmark - Avro, JSON, ORC & Parquet
File Format Benchmark - Avro, JSON, ORC & Parquet
 
MongoDB performance
MongoDB performanceMongoDB performance
MongoDB performance
 

Similar to Ist2012 aussenac-ontologieAnnotationweb

Moteurs de recherche et web sémantique
Moteurs de recherche et web sémantiqueMoteurs de recherche et web sémantique
Moteurs de recherche et web sémantique
Antidot
 
Scenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expoScenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expo
Husson Anne-Marie
 
Scenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expoScenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expo
Husson Anne-Marie
 
03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantique
badirh
 

Similar to Ist2012 aussenac-ontologieAnnotationweb (20)

Notion opérationnelle de compétence - référencement sémantique et assisance a...
Notion opérationnelle de compétence - référencement sémantique et assisance a...Notion opérationnelle de compétence - référencement sémantique et assisance a...
Notion opérationnelle de compétence - référencement sémantique et assisance a...
 
Priows présentation des résultats
Priows présentation des résultats Priows présentation des résultats
Priows présentation des résultats
 
Une vue "Web Sémantique" de l'évoluation d'ontologies
Une vue "Web Sémantique" de l'évoluation d'ontologiesUne vue "Web Sémantique" de l'évoluation d'ontologies
Une vue "Web Sémantique" de l'évoluation d'ontologies
 
Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010Vsst 2010 le_semiopole_26102010
Vsst 2010 le_semiopole_26102010
 
Présentation cice telos
Présentation cice   telosPrésentation cice   telos
Présentation cice telos
 
Moteurs de recherche et web sémantique
Moteurs de recherche et web sémantiqueMoteurs de recherche et web sémantique
Moteurs de recherche et web sémantique
 
Le web sémantique n'est pas antisocial (version de 2006)
Le web sémantique n'est pas antisocial (version de 2006)Le web sémantique n'est pas antisocial (version de 2006)
Le web sémantique n'est pas antisocial (version de 2006)
 
Conversion numérique et modification épistémologique
Conversion numérique et modification épistémologiqueConversion numérique et modification épistémologique
Conversion numérique et modification épistémologique
 
Nouvelles méthodes de développement web avec les technologies centrées doc...
Nouvelles méthodes de développement web avec les technologies centrées doc...Nouvelles méthodes de développement web avec les technologies centrées doc...
Nouvelles méthodes de développement web avec les technologies centrées doc...
 
Les technologies TAL et le futur du SEO
Les technologies TAL et le futur du SEOLes technologies TAL et le futur du SEO
Les technologies TAL et le futur du SEO
 
Introduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielleIntroduction à la fouille de textes et positionnement de l'offre logicielle
Introduction à la fouille de textes et positionnement de l'offre logicielle
 
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
OntoCASE à la 5e conférence GeCSO: Gestion des Connaissances dans la Société ...
 
L'ingénierie des ENA fondée sur le web des données ouvertes et liées
L'ingénierie des ENA fondée sur le web des données ouvertes et liéesL'ingénierie des ENA fondée sur le web des données ouvertes et liées
L'ingénierie des ENA fondée sur le web des données ouvertes et liées
 
Le studio SAPHIR pour segmenter et décrire des documents audiovisuels, visuel...
Le studio SAPHIR pour segmenter et décrire des documents audiovisuels, visuel...Le studio SAPHIR pour segmenter et décrire des documents audiovisuels, visuel...
Le studio SAPHIR pour segmenter et décrire des documents audiovisuels, visuel...
 
Scenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expoScenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expo
 
Scenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expoScenari4 fabienne droullours eleanring expo
Scenari4 fabienne droullours eleanring expo
 
Référentiels de représentation des contenus (2008)
Référentiels de représentation des contenus (2008)Référentiels de représentation des contenus (2008)
Référentiels de représentation des contenus (2008)
 
03 Web Semantique
03  Web Semantique03  Web Semantique
03 Web Semantique
 
Représentation et accès: continuités et transformations. Chapitre 1. Transfor...
Représentation et accès: continuités et transformations. Chapitre 1. Transfor...Représentation et accès: continuités et transformations. Chapitre 1. Transfor...
Représentation et accès: continuités et transformations. Chapitre 1. Transfor...
 
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
Conception assistée d’une ontologie à partir d’une conceptualisation consensu...
 

More from Nathalie Aussenac-Gilles

More from Nathalie Aussenac-Gilles (6)

Aussenac semanticsnl pwebsem2017-v4
Aussenac semanticsnl pwebsem2017-v4Aussenac semanticsnl pwebsem2017-v4
Aussenac semanticsnl pwebsem2017-v4
 
Caractériser le contenu des exigences pour aider à leur rédaction : un défi p...
Caractériser le contenu des exigences pour aider à leur rédaction : un défi p...Caractériser le contenu des exigences pour aider à leur rédaction : un défi p...
Caractériser le contenu des exigences pour aider à leur rédaction : un défi p...
 
Big data et santé : enjeux techniques
Big data et santé : enjeux techniquesBig data et santé : enjeux techniques
Big data et santé : enjeux techniques
 
Aussenac ri ia-2015
Aussenac ri ia-2015Aussenac ri ia-2015
Aussenac ri ia-2015
 
Semantic relations: new (terminological) challenges in a world of Linked Data
Semantic relations: new (terminological) challenges in a world of Linked DataSemantic relations: new (terminological) challenges in a world of Linked Data
Semantic relations: new (terminological) challenges in a world of Linked Data
 
Aussenac confinvitéeic2014 histoire ic25ans
Aussenac confinvitéeic2014 histoire ic25ansAussenac confinvitéeic2014 histoire ic25ans
Aussenac confinvitéeic2014 histoire ic25ans
 

Ist2012 aussenac-ontologieAnnotationweb

  • 1. Donner du sens à des documents semi- structurés : De la construction d'ontologies à l'annotation sémantique Nathalie Aussenac-Gilles, DR CNRS, aussenac@irit.fr À l’heure du web des données : 1. Donner du sens à des documents pour des logiciels 2. Pourquoi des ontologies ? 3. Comment ? apports du traitement automatique des langues 4. Annotation sémantique, extraction d’information : convergences 5. Web des données : nouveaux enjeux, problèmes connus Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 1
  • 2. 1 - Donner du sens à des documents pour des logiciels Qu’est que cela signifie ? … à l’heure du web sémantique … avec des ontologies … à l’heure du web des données Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 2
  • 3. Donner du sens à des documents numériques  Rendre accessible à un programme leur “contenu”  … les informations, les connaissances que l’humain y reconnait  … pour les traiter en tenant compte de ce contenu href <CV> <nom> </nom> href <adresse> </adresse> <experience> </experience> <formation>  Description documentaire </formation>  Schemas et DTD pour unifier </CV> Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 3
  • 4. … à l’heure du web sémantique  Normaliser les tags et faire référence à une ontologie pour échanger, comparer, mettre en relation  Être précis, se mettre d’accord sur le sens  Raisonner, exploiter des connaissances non explicites Onto:collaboreAvec Foaf <CV> dc:estAuteurDe P1 rdf:Type foaf:person P1 foaf:name ”‫”ﮇﮠﭿ‬ P1 foaf:adress ”‫”ﭰﭜﭪﮇﮠﭿ‬ Expe1 rdf:Type onto:experience Onto P1 onto:aExperience Expe1 …. </CV> Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 4
  • 5. Comment produire les annotations ? Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 5
  • 6. Comment produire les annotations ? Indexation classique 3rd European Semantic Web Conference (ESWC2006) The 3rd Annual European Semantic Web Conference (ESWC2006) will be held in Budva, Montenegro from the 11th - 14th June, 2006. It will present the latest results in research and application in Semantic Web technologies (including knowledge markup languages, Semantic Web services, ontology management and more). ESWC 2006 will also feature a special industry-oriented event providing European industry with an opportunity to become even more familiar with these technologies. It will offer a tutorial program, focusing on the latest in Semantic Web technologies. Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 6
  • 7. Comment produire les annotations ? Indexation classique -> indexation sémantique Europe European [geographic area:Europe] Semantic Technol Semantic Semanti Includi Web [semantic Web] Web Web [semantic Web] Knowled Conference [conference] Technology [technology] Confere Including [to include] Annual Markup Annual Languag European [geographic area:Europe] Knowledge [knowledge] Europe Semanti Semanti Semantic Markup Web Web Web Language [Markup Language] Confere Conference [conference] Semantic Service Budva [City:Budva] Budva Ontolog Web [semantic Web] Montene Montene [geographic managem area:Montenegro] Service present Ontology [Ontology] Feature present [to present] results Special results [result] management [management] Researc Applica Industr Research [research] Feature [to feature] Application [application] Special Semanti Oriente Web event Industrial [industrial] Oriented … Event [event] … Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 7
  • 8. Comment produire les annotations ? Une représentation sémantique de la page web Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 8
  • 9. … à l’heure du web des données  2 défis  Extraire les triplets  Les associer à des données existantes Onto:collaboreAvec Foaf <CV> (hasValue,”‫ ,”ﮇﮠﭿ‬foaf:name) dc:estAuteurDe (hasValue,”‫,”ﭰﭜﭪﮇﮠﭿ‬foaf:adress) (rdf:Type, P1, foaf:person) (rdf:Type, Expe1, onto:experience) (onto:aExperience, P1, Expe1) Onto …. </CV> Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 9
  • 10. Reconnaître des données existantes  Des mots à des triplets spécifiques  De triplets à des classes, des types  Des triplets à des instances  Reconciliation d’instances  Alignement de concepts Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 10
  • 11. 2 – Pourquoi des ontologies ? Nécessité de référentiels pour relier les données entre elles Nécessité de la formalisation pour raisonner Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 11
  • 12. Est-ce la fin des ontologies ? =========================================== 1st International Workshop on Ontology Engineering in a Data-Driven World –OEDW 2012 Full-day workshop at EKAW 2012 (Galway, Ireland) October 8th or 9th, 2012 http://granvia.dia.fi.upm.es/oedw2012/ =========================================== * Motivation* - Is the current data-driven world going to kill ontologies? - Are we navigating towards a shallow Web of Data? * Topics * - Guidelines, methods, and tools for Linked Data engineering - Methods for ontology/vocabulary reuse in the Linked Data context - Methods and techniques for ontology/vocabulary mapping and alignment in the Linked Data context - Guidelines, methods, and tools for RDB to RDF mappings - Life cycle management in the context of Linked Data - Creation of knowledge out of Linked Open Data - Ontology/vocabulary repositories - Empirical findings and statistics about ontologies underlying Linked Data … Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 12
  • 13. Nécessité de référentiels pour lier les données  Enjeux pour lier les données  Reconnaître la même instance dans le même document  Reconnaître la même classe dans une collection  Reconnaître la même instance dans une collection Geonames:city ??:books  Phénomènes linguistiques associés  Calcul de références  Polysémie (quel est le sens d’une occurrence de terme ? Quel type sémantique lui associer ?)  Synomymie (savoir qu’on parle de la même entité ou du même concept avec des termes différents) Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 13
  • 14. Ontologies : motivations  Réutilisation  Partage de la connaissance et communication  Interopérabilité entre différents SBC  Échange de connaissances entre systèmes  Premières initiatives  Infrastructure comme support à la réutilisation de connaissance  «Knowledge Sharing Effort », ONTOLINGUA,...  INTERLINGUA (KIF) comme langage pivot pour la traduction d’un langage vers un autre Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 15
  • 15. Ontologies : historique Ontologie PHILO. Partie de la métaphysique qui s’applique à l’être en tant qu’être, indépendamment de ses déterminations particulières (Le Petit Robert). Taxinomie 1.DIDACT. Étude théorique des bases, lois, règles, principes, d’une classification. 2. Classification d’éléments (Le Petit Robert).  Taxinomies en sciences naturelles référant Concept Depuis Aristote : essence des choses, points communs et différences évoque Refère à Triangle sémiotique : signe, référant, référé signe Forme Référé Dénomme “Jaguar“ [Odwen, Richards, 1923] Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 16
  • 16. Ontologies en Ingénierie des Connaissances Ontologie Spécification normalisée représentant les classes des objets reconnus comme existant dans le domaine. Construire une ontologie, c’est aussi décider d’une manière d’être et d’exister des objets.  Modèles des connaissances d’un domaine pertinentes pour une application, une tâche donnée FOND  Conceptualisation de ces connaissances en classes génériques, relations et règles  Application de principes de normalisation, de « bonne construction » et/ou référence à des classes ontologiques  Réseau sémantique + axiomes FORME Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 17
  • 17. D’un formulation linguistique à une représentation formelle (1) Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 18
  • 18. D’un formulation linguistique à une représentation formelle : si on utilisait une ontologie ? (2) Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 19
  • 19. Une ontologie permet de typer les données (3) Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 20
  • 20. Une ontologie pour repérer les ambigüités (4)  Exploiter les contraintes de l’ontologie formelle Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 21
  • 21. Une ontologie pour définir avec précision (5) :NationalitéFrançaise rdfs:subClassOf :nationalité :français#1 rdf:type :NationaliteFrançaise Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 22
  • 22. Autres intérêts d’utiliser une ontologie (5)  Représenter les connaissances sous une forme plus synthétique (ex des proprités) :Homme rdfs:subClassOf :Personne :Femme rdfs:subClassOf :Personne :apourProfession rdfs:domain :Personne rdfs:range :Profession Regroupe les 2 définitions :apourProfession rdfs:domain :Homme rdfs:range :Profession :apourProfession rdfs:domain :Homme rdfs:range :Profession  Pouvoir définir des classes par leurs propriétés :  Définir “journaliste français” Soit p tel que : Personne(p) et (p : apourProfession :journaliste) et (p :apourNationalité :NationalitéFrançaise), alors :JournalisteFrançais(p) Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 23
  • 23. Ontologie vs thésaurus Thésaurus SRLF et de la SFAR hémopéritoine Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 24
  • 24. Ontologie vs thésaurus hémopéritoine : « épanchement hématique localisé au niveau du péritoine » Hiérarchie de concepts Hiérarchie de relation ETAT_PATHOLOGIQUE ANATOMIE ETAT_PATHOLOGIQUE_LOCAL … LOCALISATION LESION ANA_TISSU_ENVEL à_côté_de adénopathie capsule à_l'extérieur_de … duremère au_dessus_de épanchement mésentère … épanchement gazeux peau au_niveau_de épanchement liquidien … épanchement de pus péritoine épanchement hématique Liens LESION (LOCALISATION) ANATOMIE Concept défini épanchement hématique (au_niveau_de) péritoine Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 25
  • 25. Ontologie vs thésaurus fracture à la base du crâne Hiérarchie de concepts Hiérarchie de relations LESION SITUATION LOCALISATION OBJET épanchement angle à_côté_de … fracture base à_l'extérieur_de DE bord au_dessus_de … ANATOMIE_OBJET … OS au_niv_de crâne … Liens LESION (LOCALISATION) SITUATION SITUATION (OBJET) ANATOMIE_OBJET Concept défini fracture (au_niveau_de) base (DE) crâne Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 26
  • 26. Une ontologie respecte des principes de structuration … en principe …  Fixer préalablement et précisément (Guarino 94) – les engagements ontologiques généraux : point de vue – les catégories de haut-niveau : appellations et significations (DOLCE) – le processus de raffinement de ces engagements et définitions des catégories – la spécialisation de ces catégories  Déterminer une ontologie revient à fixer la signification attendue des primitives d’un domaine (Guarino 96) – les primitives n’existent pas en tant que telles dans un domaine d’expertise Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 27
  • 27. Modéliser, c’est faire des choix 1. Quelle différence entre patient et patiente ? 2. Un concept « primitif » (patient), deux caractéristiques différentes, différenciant ainsi les deux concepts « définis ». 3. La différence est explicitement liée à un attribut (sexe) dont la valeur diffère. Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 28
  • 28. Principes de normalisation d’Archonte (Bachimont 2000)  Principes de différenciation  Point commun entre 1 concept et son père  Différence entre 1 concept et son père  Points communs entre 1 concept et ses frères  Différences entre un concept et ses frères  Les différences ne sont pas forcément représentées à l’aide de propriétés mais au moins par des commentaires Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 29
  • 29. Ontologies - Quelques exemples en 2006  Ontologies générales ou génériques (haut niveau)  WordNet / EuroWordNet, http://www.cogsci.princeton.edu/~wn  The Upper Cyc Ontology, http://www.cyc.com/cyc-2-1/index.html  IEEE Standard Upper Ontology, http://suo.ieee.org/  DOLCE, http://www.loa-cnr.it/ontologies/DLP_397.owl  LRI-Core: a core ontology for law  Ontologies de domaine ou spécifiques à des applications  RDF Site Summary RSS, http://groups.yahoo.com/group/rss-dev/files/schema.rdf  UMLS, http://www.nlm.nih.gov/research/umls/  RETSINA Calendering Agent, http://ilrt.org/discovery/2001/06/schemas/ical-full/hybrid.rdf  AIFB Web Page Ontology, http://ontobroker.semanticweb.org/ontos/aifb.html  Web-KB Ontology, http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/  Dublin Core, http://dublincore.org/  Meta-Ontologies  Semantic Translation, http://www.ecimf.org/contrib/onto/ST/index.html  Evolution Ontology, http://kaon.semanticweb.org/examples/Evolution.rdfs  Ontologies au sens large  Agrovoc, http://www.fao.org/agrovoc/  Art and Architecture Thesaurus, http://www.getty.edu/research/tools/vocabulary/aat/  UNSPSC, http://eccma.org/unspsc/  DTD standardizations, e.g. HR-XML, http://www.hr-xml.org/ Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 30
  • 30. Ontologies pour le web des données  DBPedia, une ontologie à l’échelle du web !  Construction  à partir des Info-box de Wikipedia  Extraction d’information à partir de documents semi-structurés  L’ontologie  359 classes  800 object properties  859 datatype properties  116 specialized datatype properties  45 owl:equivalentClass, 31 owl:equivalentProperty mappings  La base de connaissances (pour l’anglais) = 3.77 million things  2.35 million are classified in a consistent Ontology  764,000 persons, 573,000 places, 333,000 creative works (including 112,000 music albums, 72,000 films and 18,000 video games), 192,000 organizations (including 45,000 companies and 42,000 educational institutions), 202,000 species and 5,500 diseases.  Versions disponibles en 111 langues = 20.8 million things, out of which 10.5 mio are interlinked with concepts from the English DBpedia. http://wiki.dbpedia.org/About Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 34
  • 31. Vocabulaires pour le web des données  Dmoz The Open Directory Project is the largest, most comprehensive human- edited directory of the Web. It is constructed and maintained by a vast, global community of volunteer editors.  Associé au web2.0 et à l’annotation collaborative  Organiser les rubriques, les catégories d’annotation  structure.rdf.u8.gz - category hierarchy information  http://www.dmoz.org  Freebase Freebase is an open, Creative Commons licensed graph database with more than 23 million entities. An entity is a single person, place, or thing. Freebase connects entities together as a graph.  Structure : données structurées selon un SCHEMA en domaines / types (concepts) / properties  Pas vraiment de sémantique des types Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 35
  • 32. Ontologies pour le web sémantique  Écrites en OWL ou RDFs  Accessibles sur le web  Identifiants : URI  Importent d’autres ontologies <owl:Class rdf:ID= “wineOnto:Winery”/> <owl:Class rdf:ID= wineOnto:PotableLiquid »/> <owl:Class rdf:ID="Wine"> <rdfs:subClassOf rdf:resource="food:PotableLiquid"/> <rdfs:label xml:lang="en">wine</rdfs:label> <rdfs:label xml:lang="fr">vin</rdfs:label> ... </owl:Class> Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 36
  • 33. 3 – Comment ? Apports du TAL Le problème : donner du sens à des documents Hypothèses :  c’est articuler langue et représentations sémantiques  les représentations sémantiques sont mieux définies dans une ontologie L’approche : extraire des informations/connaissances des textes Les outils : logiciels de Traitement Automatique des langues Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 37
  • 34. Construire vs peupler une ontologie Ontology Learning Construction d‘ontologie Ontology Creation & Development Construction d‘ontologie Identifier des indices de prédicats Analyse linguistique pour extraire des (catégories, attributs, propriétés) prédicatsde leur représentation dans Décider (catégories, attributs, propriétés) à partir de textes l’ontologie Extraire Classes & Relations Peuplement d‘ontologie Extraire (Annoter) Instances Extraire des indices linguistiques d’instances de concepts de l’ontologie Annoter Ontology Population Knowledge Base Generation Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 38
  • 35. Construire vs peupler une ontologie Hugo est heureux que son grand-père René l’accompagne pour retrouver sa mère Rosie. Je crée l’ontologie Je décris des instances  Classes  Classes / propriétés connues  Propriétés des classes  Personne  Relations binaires  PereDe; MereDe  GrandParentDe  Personne  Instances identifiées  Hugo, René, Rosie  PereDe ou MereDe  GrandParentDe  Relations entre instances  AppartientMemeFamilleQue  GrandPereDe(René, Hugo)  MereDe(Rosie,Hugo)  PereDe(René, Rosie) Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 39
  • 36. Les textes pour construire ou peupler  Construire le schéma Ontologie Indices linguistiques RTO : ressource termino-ontologique  Peupler par des instances Où stocker les indices linguistiques ?? Et les patrons/ logiciels pour les trouver ? Ontologie Indices linguistiques Instances RTO Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 40
  • 37. Trouver les formulations linguistiques Ressource LESION LOCALISATION ANATOMIE CONCEPT épanchement hématique (au_niveau_de) péritoine système hémopéritoine terme texte L'échographie abdominale retrouve une contusion splénique et un hémopéritoine. Traumatisme abdominal avec une fracture de rate et un hémopéritoine abondant, ayant nécessité une splénectomie en urgence. Un nouvel état de choc apparaît associé à syndrome compartimentaire abdominal (hémopéritoine + hématome rétropéritonéal)) justifiant la laparotomie exploratrice. L'évacuation de l'hémopéritoine ne permet pas de mettre en évidence une cause nette au saignement ;Instabilité hémodynamique initiale, avec TA 80 / 60 et fréquence cardiaque à 120 / min en relation avec des pertes sanguines sur les foyers de fractures (échographie abdominale normale, absence d‘ hémopéritoine ou de lésion viscérale intrapéritonéale évidente)).deux échographies abdominales successives un hémopéritoine évolutif, sans pneumopéritoine, ainsi qu'un décollement péricardique postérieur.un traumatisme thoraco-abdominal avec fracture des arcs postérieurs des 7e, 8e et 9e côtes droites, contusion hépatique au niveau des segments VI-VII, hémopéritoine de moyenne abondance, contusion splénique,Instabilité hémodynamique nécessitant remplissage, transfusion de culots globulaires, PFC et plaquettes dans le cadre d'un hémopéritoine sur fracture du bassin. Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 41
  • 38. Trouver les variantes de formulation RTO sevrage (OBJET) Noradrénaline CONCEPT sevrage_Noradrénaline sevrage en noradrénaline sevrage de la noradrénaline termes sevrage Adj? [de|en] la? noradrénaline système sevré de noradrénaline patrons noradrénaline être Adv? sevré texte sevrage en noradrénaline le 23 / 10. Stabilité cardiorespiratoire, le sevrage de la Noradrénaline est fait à J5 de la réintervention et l'extubation est réalisée à J6. Evolution favorable avec sevrage rapide en Noradrénaline le 20 / 06 / 99. Stabilité hémodynamique initiale correcte avec sevrage progressif en Noradrénaline obtenu à J3. Les suites du choc hypovolémique hémorragique sont simples, avec sevrage de noradrénaline à J3 et extubation à J2. L'évolution est alors favorable avec Instauration d'une corticothérapie ayant permis un sevrage rapide de la Noradrénaline, La patiente est sevrée de noradrénaline le 16 / 06 / 00. Le patient est sevré de Noradrénaline le 13 / 05 / 00. La Noradrénaline est sevrée dans la nuit du 20 au 21 / 01. Après remplissage vasculaire par 1000 cc de Plasmion et 1000 cc d'Elohes, la Noradrénaline est rapidement sevrée Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 42
  • 39. Couches de TAL pour construire une ontologie (Buitelaar, EACL 2006) Toute personne a au plus 1 mère Axiomes, règles Disjoint(personne, ville) Schémas d’axiomes estParentDe(Personne, personne) ; habiteDans(personne, ville) Autres relations PèreAdoptif est_un père Hiérarchie de concepts personne est_un êtreVivant C:père = {René,…}, {personne qui a 1 enfant} Concepts {père, papa, géniteur} Synonymes (multilingues) {mari, conjoint, époux} Personne, père, père adoptif, Termes enfant, grand-parent Séquence de mots (texte) Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 43
  • 40. Extraire des termes  Termes  Unité lexicale complexe qui fait sens dans le domaine  Candidats  Père connaissance  Père adoptif acquisition de connaissances  Père adoptif de l’enfant Acquisition de K du domaine  . Acquisition de connaissances du jour  Difficultés  Trop de candidats : comment sélectionner ?  Quels sont les bons termes pour mon ontologie ?  Notion de termhood (« termitude ») = importance, représentativité du candidat dans le domaine Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 44
  • 41. Techniques pour identifier des termes  Linguistiques  = caractériser la syntaxe des termes par des patrons N, N prep det N, Adj N; N adj, …  Exploiter les frontières : det, prep, verbes  Exploiter les noms propres, mots vides …  Statistiques  Co-occurrences, segments répétés  Comparaison de la fréquence dans le corpus % à la langue générale  Hybrides  Utiliser les statistiques pour filtrer les termes  Combiner patrons + co-occurrences pour trouver des candidats Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 45
  • 42. Extracteurs de termes « linguistiques »  Patrons appris sur corpus annoté : ANA (Daille)  Frontières négatives Lexter ( Bourigault, 2000)  Patrons exploitant les dépendances grammaticales : SYNTEX (Bourigault, 2003) Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 46
  • 43. TermoStat (Drouin, 2007) : ex de patrons  TermoStat Web http://olst.ling.umontreal.ca/~drouinp/termostat_web/ Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 47
  • 44. Termostat : score de spécificité Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 48
  • 45. Termostat : Critères de sélection des termes  Fréquence Spécificité  Relations syntaxiques entre termes /productivité Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 49
  • 46. Couches de TAL pour construire une ontologie Toute personne a au plus 1 mère Axiomes, règles Disjoint(personne, ville) Schémas d’axiomes estParentDe(Personne, personne) ; habiteDans(personne, ville) Autres relations PèreAdoptif est_un père Hiérarchie de concepts personne est_un êtreVivant C:père = {René,…}, {personne qui a 1 enfant} Concepts {père, papa, géniteur} Synonymes (multilingues) {mari, conjoint, époux} Personne, père, père adoptif, Termes enfant, grand-parent Séquence de mots (texte) De la construction d'ontologies à l'annotation sémantique - Oct 2012 - IST N. Aussenac-Gilles 50
  • 47. Recherche de synonymes en français  Ressources exploitables  Dictionnaires de synonymes (Dicosyn (U. de Caen, ~200 000 couples)  Ressources lexicales (Synset de Wordnet)  Logiciel SYNOTERM (Hamon, 2006) :  Exploiter la structure des termes et des dictionnaires de synonymes + vérifier en corpus:  Si A et B sont synonymes,  Si NA et NB existent en corpus  Alors proposer NA synonyme de NB  Problème : la relation de synonymie est contextuelle  Identifier des relations de synonymie pertinentes  pour le domaine  pour l’application Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 51
  • 48. Synonymie inter-langue  Techniques statistiques  Clustering  Classer les termes selon leur distribution  2 termes sont groupés dans une classe s’ils sont utilisés dans les mêmes contextes  Classification  Associer des candidats termes à des classes déjà définies  Exploiter des corpus parallèles  Même texte exprimé dans 2 langues Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 52
  • 49. Couches de TAL pour construire une ontologie (Buitelaar, EACL 2006) Toute personne a au plus 1 mère Axiomes, règles Disjoint(personne, ville) Schémas d’axiomes estParentDe(Personne, personne) ; habiteDans(personne, ville) Autres relations PèreAdoptif est_un père Hiérarchie de concepts personne est_un êtreVivant C:père = {René,…}, {personne qui a 1 enfant} Concepts {père, papa, géniteur} Synonymes (multilingues) {mari, conjoint, époux} Personne, père, père adoptif, Termes enfant, grand-parent Séquence de mots (texte) Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 53
  • 50. Typologie des méthodes de structuration  Méthodes structurelles  Exploitent sur la structure syntaxique interne des candidats termes («endotermes»)  Composition syntaxique  Variation morpho-syntaxique, lexicale  Méthodes contextuelles  Exploitent les contextes de co-occurrence des candidats termes («exotermes»)  Locales : une relation extraite pour une occurrence  Patrons  Globales : des relations extraites à partir d’un ensemble d’occurrences  Cooccurrence statistique  Analyse distributionnelle Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 54
  • 51. Méthode structurelle : dépendance syntaxique  Dépendance syntaxique  Chaque terme complexe se décompose en une Tête et une Expansion  Séries paradigmatiques ontologie ~ ~ de base de connaissance T ---- disponible E ---- concepteur ---- définie ---- conception ---- explicite ---- construction ---- formelle ---- maintenance ---- référentielle ---- raffinement ---- régionale ---- structure ---- résultante ---- usage ---- spécialisée ---- validation ---- universelle ---- vérification Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 55
  • 52. « Tous les Nom Adj sont des Nom » est faux CT : syndrome ~ Taxinomie de concepts 38 syndrome septique SYNDROME 35 syndrome infectieux SYNDROME_CLINIQUE anasarque 29 Syndrome alvéolaire apnée du sommeil 28 syndrome dépressif … 27 syndrome confusionnel syndrome bronchique 23 syndrome de défaillance syndrome cave syndrome confusionnel 19 syndrome bilatéral … 18 syndrome inflammatoire SYNDROME_MIXTE 17 Syndrome fébrile état de mort encéphalique rhabdomyolyse 16 syndrome de défaillance multiviscérale … 14 syndrome pyramidal syndrome de défaillance multiviscérale 14 syndrome alvéolaire bilatéral syndrome de détresse respiratoire aiguë 14 Syndrome abdominal … SYNDROME_PARACLINIQUE 14 syndrome occlusif syndrome alvéolaire 11 syndrome de sevrage syndrome alvéolo-interstitiel … … … Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 56
  • 53. Méthode structurelle : variation  Principe général (Daille, 2009) Si CT1 = [ A B1 ] CT2 = [ A B2 ] Et B1 REL B2 Alors CT1 REL CT2  Exemples  Variation morphosyntaxique transférer en réanimation  transfert en réanimation patient transféré  transfert du patient  Variation lexicale hausse de la température  augmentation de la température Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 57
  • 54. Variation morphosyntaxique  Type de relations  verbe – nom (transférer un = transfert du)  nom – adjectif (transfert de / transférable)  …  Méthodes exogènes : avec ressources lexicales  Celex  Verbaction (ERSS, N. Hathout) : verbe – nom  Méthodes endogène : sans ressource externe  Règles de troncation + validation sur corpus Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 58
  • 55. Variation morphosyntaxique : des résultats  Une productivité réduite, mais des résultats fiables  Corpus REA : environ 200 couples SV-SN arrêter les antibiotiques, arrêt des antibiotiques, antibiotiques arrêtés drainer un pneumothorax, drainage du pneumothorax lever une atélectasie, levée de l’atélectasie  Corpus Code Civil : environ 100 couples SV-SN le conseil de famille autorise, autorisation du conseil de famille établir la filiation, filiation établie révoquer la donation, révocation de la donation, donation révoquée Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 59
  • 56. Couches de TAL pour la construction d’ontologies (Buitelaar, EACL 2006) Toute personne a au plus 1 mère Axiomes, règles Disjoint(personne, ville) Schémas d’axiomes estParentDe(Personne, personne) ; habiteDans(personne, ville) Autres relations PèreAdoptif est_un père Hiérarchie de concepts personne est_un êtreVivant C:père = {René,…}, personne qui a 1 enfant} Concepts {père, papa, géniteur} Synonymes (multilingues) {mari, conjoint, époux} Personne, père, père adoptif, Termes enfant, grand-parent Séquence de mots (texte) Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 60
  • 57. Méthodes contextuelles locales : patrons de relation  Exemples : un … est un … qui tous les …, sauf …, … et …  Problèmes  Généralités vs. spécificité (domaine, type de textes)  Relations  Patrons  Prétraitements : quels indices exploiter ?  Lexique, POS, relations syntaxiques SUJET-OBJET…,  Valider des patrons généraux  Cf. Cameléon  Acquérir des patrons spécifiques  Technique itérative (Hearst, 1992)  Apprentissage automatique Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 61
  • 58. Méthodes contextuelles globales : cooccurrence  Méthodes classiques en informatique documentaire  Création automatique de thesaurus  Cooccurrence statistique  1er ordre  Les unités qui cooccurrent avec le mot pivot dans une fenêtre donnée (phrase, paragraphe, +- n mots)  2ème ordre  Les unités qui ont les mêmes cooccurrents que le mot pivot Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 62
  • 59. Méthode contextuelle globale : analyse distributionnelle  Analyse distributionnelle (Zellig S. HARRIS)  Deux termes sont rapprochés s’ils apparaissent dans les mêmes contextes syntaxiques. ontologie taxinomie contextes insertion dans ~ classer dans ~ structurer ~ organisation de ~ réaliser ~ Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 63
  • 60. Analyse distributionnelle : choix méthodologiques  Analyse syntaxique en entrée  syntagmes nominaux / syntagmes verbaux  Données (unités rapprochées, contexte)  structures élémentaires / structures complexes  Mesures de proximité  Jaccard / Jaccard pondéré / …  Types de regroupement  Couples / classes / cliques / … Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 64
  • 61. Logiciels  Extraction de relations  Caméléon -> démo  Terminoweb http://termino.iit.nrc.ca/index.jsp  Chaînes de traitements  text2Onto http://ontoware.org/projects/text2onto/  Un projet européen : NEON http://www.neon-project.org/  Un projet pour le français : DAFOE http://dafoe4app.fr/ Oct 2012 - IST 65 De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles
  • 62. Couches de TAL pour la construction d’ontologies (Buitelaar, EACL 2006) Toute personne a au plus 1 mère Si Pere(x,y) et Pere(y,z) alors GrandPere(X,Z) Axiomes, règles Disjoint(personne, ville) Schémas d’axiomes estParentDe(Personne, personne) ; habiteDans(personne, ville) Autres relations PèreAdoptif est_un père Hiérarchie de concepts personne est_un êtreVivant C:père = {René,…}, personne qui a 1 enfant} Concepts {père, papa, géniteur} Synonymes (multilingues) {mari, conjoint, époux} Personne, père, père adoptif, Termes enfant, grand-parent Séquence de mots (texte) Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 66
  • 63. 4 - Annotation sémantique, extraction d’information : convergences La diversité des annotations L’annotation de documents textuels : de la langue aux représentations formelles Quelques logiciels d’annotation À l’heure du web des données Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 67
  • 64. Annotations et méta-données  Annotation comme objet  Information associée à une page existante  Information manipulable par un système informatique  Information qui peut être séparée des données annotées  Annotation vs méta-donnée vs index  Méta-donnée  Plutôt normalisée, catégories définies a priori et souvent séparée du document (fichier à part)  Ex : Dublin Core  Annotation  Plutôt liée au domaine, définie A LA MAIN ou automatiquement, APRES création du document, complète le document  Index  Plutôt lié au contenu, calculé AUTOMATIQUEMENT à partir du document (APRES création), stocké à part, se substitue au document Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 68
  • 65. Emprunté à Y. Prié, cours M2R 2005-2006 Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 69
  • 66. Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 71
  • 67. Processus d’annotation sémantique  2 types d’annotations  Associer des concepts à tout le document ou à chaque paragraphe (annotation conceptuelle)  Localiser précisément les mots correspondant aux concepts (annotation sémantique)  2 types de processus / de logiciels  Manuel : interface pour « poser » des annotations (ex: Magpie, Notator)  Automatique : logiciel de production d’un index sémantique Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 72
  • 68. Annotation sémantique de documents textuels  Annotation comme processus  But  Construire une représentation de chaque document formée de concepts (et de relations entre concepts)  Les indices linguistiques comme pivots  Retrouver des traces linguistiques de concepts / d’instances de concepts / dans les textes  Retrouver des traces linguistiques de relations Indices linguistiques Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 73
  • 69. Processus d’annotation sémantique  Indices pour annoter  termes importants ou mots clés présents dans l’ontologie  = étiquettes des concepts (labels ou Id)  Annoter  Enregistrer les concepts associés  Résultat de l’annotation (suivant les approches)  Liste de concepts  Liste d’instances de concepts  Graphe de concepts  Graphe d’instances de concepts Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 74
  • 70. Graphe d’annotation  Graphe de relations entre instances  Graphe connexe  Ensemble de triplets conformes au modèle de l’ontologie Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 75
  • 71. Processus d’annotation  Ex de difficultés  Ontologie : concept « rouler » > comment reconnaître roulage ?  Ontologie : concepts « perte de puissance » et « puissance » : comment choisir « perte de puissance » ?  Ontologie : « perte de puissance » EST-UN « problème » : faut-il annoter avec le concept le plus spécifique ? Le plus générique ? Les deux ?  Phrase : (à haut régime) :  parenthèses: faut-il en tenir compte ? Comment les interpréter ?  Fin de phrase : comment savoir que « haut régime » est associé au moteur et pas à « autoroute » ? Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 76
  • 72. Processus d’annotation : fonctions de TAL essentielles  Calculer la distance entre 2 termes  Distances entre chaînes de caractères (dist lexicales)  Basée sur des n-grammes, souvent 3-grammes : chat et chaton ont en commun {cha, hat} (mesure de Lin, 1998)  Distance d’édition (Levenshtein, 1996) E(T1,T2) = nbre d’opérations pour passer de T1 à T2  String matching (Maedche et Staab, 2002)  Distances entre termes composés de plusieurs mots  Distance entre vecteurs de mots Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 77
  • 73. Couches de TAL pour l’annotation sémantique (Buitelaar, EACL 2006) Toute personne a au plus 1 mère Axiomes, règles Disjoint(personne, ville) Schémas d’axiomes estParentDe(Personne, personne) ; habiteDans(personne, ville) Autres relations PèreAdoptif est_un père Hiérarchie de concepts personne est_un êtreVivant C:père = {René,…}, personne qui a 1 enfant} Concepts {père, papa, géniteur} Synonymes (multilingues) {mari, conjoint, époux} Personne, père, père adoptif, Termes enfant, grand-parent Séquence de mots (texte) Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 78
  • 74. Annotation sémantique avec TextAnnot http://themat2i.univ-pau.fr:8080/TextAnnot-WWW/index.jsp  Le processus  Projette les termes de la RTO des fiches à annoter  indexation avec le moteur Lucène  distance entre termes basée sur des trigrammes  Génère des instances de termes  Pour chaque terme, génère une instance DU (seul) concept associé  Met en relation les instances de concepts reconnus lorsque les termes sont proches dans la même phrase  Les met en relation avec le type de relation proposé dans l’ontologie  Le résultat  Graphe d’instances, connexe  Ensemble de triplets d’instances ajoutées à l’ontologie Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 79
  • 75. Annotation sémantique avec TextAnnot http://themat2i.univ-pau.fr:8080/TextAnnot-WWW/index.jsp Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 80
  • 76. Cycle de vie des annotations Gestion des évolutions des annotations corpus Assurer la cohérence entre ontologie / annotation et Nouveaux documents Nouveaux concepts Nouvelle terminologie Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 81
  • 77. Outils d’annotation  Annotation en RDF  Annotea  W3C  Protocole de transfert d’annotation vers/de un serveur central  Un schéma minimal, extensions possibles, classement des topics  Implémentations : Amaya  Annotation sémantique en RDFs  CREAM (CREAting Metadata)  Framework pour l’annotation / édition  Notion de méta-données relationnelle (ie. basées sur les ontologies)  Ontomat  http://annotation.semanticweb.org/tools/ontomat  Annotation sémantique à l’aide de graphes conceptuels  Web Knowledge Base – http://www.webkb.org/ Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 82
  • 78. CREAM Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 83
  • 79. KIM (Kyriakov et al., 2004)  But = annoter des pages web  Implémentation = plug-in du navigateur  Mise à disposition d’une ontologie “générale” qui renvoie à des noms propres (lieux, personnes, entreprises, etc)  Disponible à http://www.ontotext.com/kim Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 84
  • 80. KIM Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 85
  • 81. Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 86
  • 82. Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 87
  • 83. Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 88
  • 84. Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 89
  • 85. 5 – à l’heure du web des données  Nouveaux enjeux  Associer données et ontologies  Annoter avec des ontologies peuplées de données  Extraire des données pour annoter  Annoter pour naviguer  Nouveauté  Quantité, disponibilité des données  Continuité des problèmes linguistiques  Ambigüité, références, variation, … Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 90
  • 86. DBPedia Spotlight DBpedia Spotlight is a tool for annotating mentions of DBpedia resources in text, providing a solution for linking unstructured information sources to the Linked Open Data cloud through DBpedia. http://en.wikipedia.org/wiki/DBpedia_Spotlight  Début en Juin 2010, réalisé par les chercheurs du Web Based Systems Group de la Free University of Berlin  Disponible pour l’anglais, internationalisation en cours  Open source web service  Spotting: Keyphrase Extraction and Named Entity Recognition  Desambiguation : choisit la bonne classe en fonction du contexte  Annotation : retourne les résultats de l’annotation avec le “meilleur” concept pour chaque expression annotée  Candidats : retourne toutes les possibilités d’annotation de chaque expression  http://dbpedia-spotlight.github.com/demo/# Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 91
  • 87. Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 92
  • 88. Fred : extraire et annoter par des graphes  FRED http://wit.istc.cnr.it/stlab-tools/fred/  analyse des phrases en langage naturel  bien formées en anglais (verbe)  produit des fragments d'ontologies et de données liées en RDF/OWL  Principes  reconnaissance des relations du verbe (FrameNet et VerbNet)  représentation logique compatible avec DRT (discourse representation theory)  application de patrons de conception d'ontologie (ontology design patterns) pour bien former les fragments  Analyseurs utilisés  C&C http://svn.ask.it.usyd.edu.au/trac/candc  Boxer http://svn.ask.it.usyd.edu.au/trac/candc/wiki/boxer Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 93
  • 89. Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 94
  • 90. Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 95
  • 91. Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 96
  • 92. Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 97
  • 93. Tipalo : extraire des graphes locaux  Tipalo http://wit.istc.cnr.it/stlab-tools/tipalo/  But :  générer un graphe d’entités d’une page Wikipedia  Sorte « d’annotation » de la page  Graphe RDF composé de rdf:type, rdfs:subClassOf, owl:sameAs, et owl:equivalentTo  Méthode  Utilise FRED  Affecte automatiquement un type aux entités nommées Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 98
  • 94. http://en.wikipedia.org/wiki/Isabelle_Huppert Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 99
  • 95. Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 100
  • 96. Annoter pour naviguer via les données  Aemoo http://wit.istc.cnr.it/aemoo/index.html  But : recherche exploratoire sur le Web.  Entrée : des mots clés  Résultat : réseau autour de cette entité  Sources exploitées :  Les textes de Wikipedia, Twitter, et Google News  Plus riche que DBpedia (qui représente seulement 7de Wikipedia). Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 101
  • 97. Aemoo n’aime que les entités, pas les classes  Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 102
  • 98. Aemoo aime bien les entités  Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 103
  • 99. Inquire : intelligent textbook http://www.aaaivideos.org/2012/inquire_intelligent_textbook/  Ontologie de 5000 concepts  Editeur de graphes  Annotation manuelle Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 104
  • 100. Inquire : annotation par des graphes Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 105
  • 101. Inquire : interrogation Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 106
  • 102. Le graphe / concept réponse Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 107
  • 103. Afficher la réponse : document reconstruit Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 108
  • 104. Discussion: web des données, web sémantique  Le web des données  Plus de données  Format homogène  Processus continu d’enrichissement  L’espoir / l’illusion : plus réaliste que le web sémantique  Annotations plus faciles  Ressources disponibles pour annoter, couvrant tout domaine  Faire émerger du sens de la quantité  La réalité  Typer les données  Assurer des passerelles entre données (aligner, associer)  Les problèmes d’annotation demeurent Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 109
  • 105. Convergences : les difficultés qui demeurent  Sur les données pour annoter  Relier les données => les typer => ontologies  Ontologie => point de vue sur le document  Extraire des triplets vs donner du sens  Sur l’annotation en général  Statut des annotations, droits % documents et auteurs  Qui annote, quand, pour qui  Place, stockage des annotations  Sur l’annotation sémantique  Orientation des interprétations, des usages, requêtes etc.  Gestion des évolutions  Guidage par le document (et adaption du schéma) vs par l’ontologie Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 110
  • 106. Convergences : les difficultés qui demeurent  Outils d’annotation  Automatisation => articulation lexique-ontologie et/ou TAL  Architectures différentes selon usage prévus  En pleine expansion  Nécessite des développements en apprentissage et TAL  Ce que je n’ai pas développé : exploiter le web 2.0  Les tags sont-ils des annotations ?  Méta-données ? Mots-clés ou pense-bête ?  Quel rapport à l’objet documentaire taggé ?  Folksonomies pour construire / remplacer les ontologies Oct 2012 - IST De la construction d'ontologies à l'annotation sémantique - N. Aussenac-Gilles 111