1. Chaîne d'analyse de Tagmatica pourChaîne d'analyse de Tagmatica pour
les textes français, anglais etles textes français, anglais et
espagnolsespagnols
Gil Francopoulo, www.tagmatica.com
journée Scribo, 23 novembre 2010
2. Quoi ?Quoi ?
* Détecter les entités nommées, de manière* Détecter les entités nommées, de manière
opérationnelle, sur des milliers de documentsopérationnelle, sur des milliers de documents
par jour, dans le domaine de la Presse et despar jour, dans le domaine de la Presse et des
blogs institutionnels.blogs institutionnels.
En janvier, gestion de la coréférence etEn janvier, gestion de la coréférence et
extraction des citations.extraction des citations.
Comment ?Comment ?
* Chaîne d'analyse hybride: mi-statistique, mi-* Chaîne d'analyse hybride: mi-statistique, mi-
symbolique.symbolique.
3. Entité nommée:Entité nommée:
* la graphie structurée* la graphie structurée
* un type* un type
* un sous-type* un sous-type
ex#1 "Jacques Dujardin ..." (parfait inconnu)
=> on peut juste déterminer que c'est une
personne de sexe masculin, car "Jacques" est un
prénom connu et le nom qui suit commence
par une majuscule. Donc, le type=individual et
le sous-type inconnu.
Deux cas de figure:
4. ex#2: "Usain Bolt ...", comme il est décrit
dans la base de connaissances interne de la
chaîne d'analyse => type=individual et sous-
type=athlete
Donc, en résumé, le type est toujours
déterminé et le sous-type l'est éventuellement.
Les types et sous-types sont organisés selon
une ontologie très fine et complète avec 995
noeuds issus de Sekine, IPTC, des
encyclopédies et de diverses expériences de
veilleurs professionels => décrite en OWL
=> types=niveau#1 et sous-types=niveau#>1
télécharger www.tagmatica.com/doc/ontology.owl
5.
6. Coréférence, trois mécanismes:
* références pronominales
Nicolas Sarkozy ... il
* variantes
Nicolas Sarkozy ... Sarko
Nicolas Sarkozy ... Sarkozy
* noms de fonctions
Nicolas Sarkozy ... le président
Extraction des citations:
"Réduisez le déficit" plaide la Commission, avant de
se rétracter.
locuteur= "Commission"
relateur= "plaider"
discours= "réduire le déficit"
Traitements sémantiques,
disons, un peu plus subtils:
8. Conclusion
Implémentation:
* conception objet de manière industrielle,
* conforme aux standards ISO,
* entièrement Unicode,
* écrit en Java (8 années de dev à tps partiel),
* API ou sortie XML Passage++,
* fonctionne sur Linux et Windows.
Chaîne automatique opérationnelle qui réalise
une analyse morphosyntaxique, une analyse
syntaxique complète et un certain nombre de
traitements d'interprétation du sens.
Merci de votre attention
contact: gil.francopoulo@tagmatica.com