Cergar atala09
Upcoming SlideShare
Loading in...5
×

Like this? Share it with your network

Share
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
247
On Slideshare
247
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Analyse syntaxique du français parlé Christophe Cerisara Claire Gardent CNRS/LORIA, Nancy CNRS/LORIA, Nancy Equipe Parole, Bat. C Equipe Talaris, Bat. B 615, rue du jardin botanique 615, rue du jardin botanique 54600 Villers lès Nancy 54600 Villers lès Nancy christophe.cerisara@loria.fr claire.gardent@loria.fr Abstract 2003) et des analyseurs plus procéduraux (Bouri- gault et al., 2005; Francopoulo, 2005) ; les analy- Il existe pour le Français de nombreux sys- seurs symboliques et les analyseurs stochastiques tèmes d’analyse syntaxique. Cependant, (Candito et al., 2009a; Arun and Keller, 2005; la plupart de ces analyseurs sont conçus Schluter and van Genabith, 2008). pour la langue écrite. Dans cet article, Cependant, ces analyseurs sont conçus pour nous nous concentrons sur la langue orale traiter la langue écrite. Ils ne permettent ni de trai- et présentons une infrastructure logicielle ter des spécificités de la langue orale telles que les pour le développement d’un analyseur de disfluences (répétitions, hésitations, corrections), la langue orale. Nous discutons les résul- ni de traiter du caractère imparfait des transcrip- tats d’expériences préliminaires et mon- tions produites par les systèmes de reconnaissance trons en particulier, qu’après apprentis- automatique de la parole (SRAP). sage sur un corpus oral de petite taille (en- Récemment, (Nasr and Béchet, 2009) ont pré- viron 20 000 mots), l’analyseur stochas- senté un modèle d’analyse syntaxique de l’oral tique utilisé exhibe un score de rattache- spontané en deux étapes. La première étape uti- ment en dépendances typées variant entre lise des techniques (automates) et ressources 70.3% et 71.8% selon le degré de vérifica- (lexiques, grammaires) symboliques pour associer tion de la référence manuelle (vérification à chaque verbe présent dans le graphe d’hypo- ou non par un linguiste expert). Nous uti- thèses produites par le SRAP, un ensemble d’hy- lisons également l’infrastructure dévelop- pothèses concernant le cadre valenciel de ce verbe pée pour entraîner l’analyseur sur une par- dans le contexte considéré. Ce premier module est tie du corpus mis à disposition par la cam- générique. Le second module en revanche, est spé- pagne EASY 2007 (Hamon et al., 2008) et cifique à une application et exploite un corpus an- obtenons une F-mesure de 50 % sur une noté manuellement pour ordonner les hypothèses partie de ce corpus. produites par le premier module. Le modèle est1 Introduction évalué sur le corpus média par examen des ré- sultats sur le verbe réserver. Sur 187 occurrences Comme l’a montré la campagne d’évaluation de ce verbe, la précision en dépendances typéesdes analyseurs syntaxiques menée dans le cadre (pourcentage d’actants reconnus correctement) estde l’action EASy/EVALDA1 , il existe pour le de 91.1% pour une transcription manuelle du fluxFrançais, divers systèmes d’analyse syntaxique. oral et de 80.4% pour une transcription automa-Le spectre couvert inclut l’ analyse syntagma- tique.tique profonde (Villemonte de La Clergerie, 2005; Nous explorons ici une piste alternative natu-Boullier et al., 2005; Roussanaly et al., 2005; Bon- relle étant donné l’état de l’art en analyse syn-fante et al., 2003) et l’analyse en dépendances taxique à savoir, le développement d’un analyseur(Bourigault et al., 2005; Francopoulo, 2005) ; les stochastique supervisé. Les motivations derrièreanalyseurs basés sur des grammaires déclaratives ce travail sont doubles.(Villemonte de La Clergerie, 2005; Boullier et al., Premièrement, l’analyse syntaxique de l’oral2005; Roussanaly et al., 2005; Bonfante et al., est un défi intéressant et il semble naturel d’exa- 1 http://www.technolangue.net/ miner dans quelle mesure, les techniques utili-article198.html sées pour l’analyse du texte écrit sont transpo-
  • 2. F IG . 1 – Interface graphique de JS YNATSsables à la transcription, manuelle ou automatique, de l’art, les résultats obtenus sont encourageantsd’un énoncé oral. Si l’analyseur de (Nasr and compte tenu de la taille très réduite des corpusBéchet, 2009) est d’une précision remarquable, d’apprentissage et de la courbe de progression.l’analyse qu’il produit est une analyse partielle où L’organisation de l’article est la suivante. Dansseuls le verbe et ses dépendants sont analysés. Par la section 2, nous présentons le schéma d’anno-contraste, un analyseur supervisé acquis à partir tation utilisé et le comparons aux schémas d’an-d’un corpus arboré pour l’oral permettrait une ana- notations en dépendances existants pour le fran-lyse complète de la phrase. çais à savoir, le format Easy/Passage et le format Deuxièmement, un analyseur stochastique per- proposé récemment par (Candito et al., 2009a). Lamet d’associer une probabilité à chaque analyse section 3 présente le logiciel (JS YNATS ) utiliséproduite. Or une piste possible pour l’améliora- pour l’annotation, l’apprentissage, l’analyse syn-tion des systèmes de reconnaissance de la parole taxique et l’évaluation. La section 4 est consacréeest l’intégration dans le processus de reconnais- à la description des premières expériences réali-sance, de connaissances syntaxiques et en parti- sées avec l’environnement logiciel JS YNATS . Laculier, d’une mesure de confiance syntaxique per- section 5 conclut l’article.mettant de réordonner les hypothèses produitespar le SRAP. Dans ce contexte, un analyseur sto- 2 Schéma d’annotationchastique est un apport important. Comme le montre la dernière campagne d’éva- Nous présentons dans cet article une infrastruc- luation sur l’analyse syntaxico-sémantique multi-ture linguistique et logicielle permettant d’envisa- lingues (CoNLL-2009 Shared Task : Syntactic andger le développement d’un analyseur syntaxique Semantic Dependencies in Multiple Languages),stochastique pour le Français parlé. Cette infra- des schémas d’annotations en dépendances syn-structure vise à faciliter la réutilisation de l’analy- taxiques (et sémantiques) ont été définis et utili-seur stochastique MALT (Nivre et al., 2007) pour le sés pour de nombreuses langues dont en particu-français parlé. Elle comprend (i) la définition d’un lier, la catalan, le chinois, l’anglais, l’allemand, leschéma d’annotation en dépendances appelé RAP - tchèque, l’espagnol et le japonais.SODYS et (ii) un environnement logiciel permet- Pour le français, on peut recenser le schématant l’annotation syntaxique, l’apprentissage sur EASY (Gendner et al., 2008), le schéma récem-un corpus annoté, l’analyse syntaxique et l’évalua- ment défini par l’équipe INRIA ALPAGE (Can-tion par rapport à une référence. dito et al., 2009b) et dans une moindre mesure, le Nous décrivons plusieurs expériences prélimi- schéma d’anotation des dépendants verbaux utilisénaires faites avec l’environnement présenté : l’ap- pour le corpus arboré de Paris 7 (Abeillé, 2004).prentissage et l’évaluation, à partir d’un corpus depetite taille, d’un analyseur pour la transcription 2.1 Le schéma EASYmanuelle du français parlé ; la comparaison pour Le schéma d’annotation EASY n’est pas réel-cet analyseur d’une évaluation sur un corpus ar- lement un schéma d’annotation en dépendancesboré validé par une expert linguiste avec une éva- syntaxiques puisqu’il n’impose (et parfois ne per-luation par validation croisée sur un corpus an- met) pas que l’annotation syntaxique d’une phrasenoté manuellement par des étudiantes de licence ; soit une structure de dépendances. En effet, ceet l’apprentissage à partir du corpus de dévelop- schéma préconise une annotation mixte en consti-pement EASY 2007, d’un analyseur stochastique tuants et dépendances telle que les relations depour le français écrit. Bien qu’encore loin de l’état dépendances ne relient pas uniquement des mots
  • 3. comme dans une structure de dépendances clas- dination (cc ), juxtaposition (juxt ), complémentsique, mais également des mots et des constituants réfléchi (ref ), partie d’une locution multi-motsou des constituants et des constituants. De plus, (MultiMots ), expression figée (dummy ).comme l’indique le tableau 2, le schéma d’anno- Le tableau 2 résume les points communs et lestation choisi ne couvre pas l’ensemble des rela- divergences d’avec les schémas existants. Plus gé-tions de dépendances syntaxiques possibles entre néralement, les choix faits pour le schéma d’anno-les mots. Par exemple, la relation entre un nom tation résultent d’un objectif double.et un déterminant n’est pas incluse. Néanmoins, Premièrement, l’annotation syntaxique doit per-en ajoutant au schéma d’annotation les relations mettre de distinguer les transcriptions erronéesmanquantes et en limitant l’emploi de ces relations des transcriptions correctes produites par le sys-aux relations mot-mot, il est possible d’utiliser le tème de reconnaissance de la parole. En d’autresschéma EASY pour une annotation en structure termes, les structures de dépendances produitesde dépendances. Comme le tableau 2 l’indique, ce doivent encoder des connaissances syntaxiquesschéma est de fait relativement proche du schéma fines. C’est ce qui justifie par exemple l’annota-ALPAGE utilisé pour une annotation en dépen- tion des réfléchis : comme tous les verbes n’ac-dances. ceptent pas la forme pronominale, cette annotation2.2 Le schéma ALPAGE peut permettre de détecter une phrase peu probable syntaxiquement lorsqu’un tel verbe apparait dans Le schéma récemment défini par l’équipe IN- une structure incluant un argument réfléchi.RIA ALPAGE reprend le schéma d’anotation des Deuxièmement, la structure syntaxique doitdépendants verbaux utilisé pour le corpus arboré permettre à plus long terme le calcul sémantiquede Paris 7 (Abeillé, 2004) et l’étend aux cas et gou- afin de pouvoir également intégrer des connais-verneurs non annotés dans ce corpus dont en parti- sances sémantiques dans le processus de recon-culier, les gouverneurs non verbaux. Les structures naissance de la parole. Pour cette raison, les ar-résultant de l’annotation sont des arbres orien- guments des nominaux déverbaux sont annotéstés où les noeuds correspondent aux formes flé- comme tels.chies de la phrase et où les arcs sont étiquettés parl’une des relations de dépendances permises par le Les différences avec le schéma ALPAGEschéma. Les relations utilisées sont listées dans le portent sur la précision de l’annotation.tableau 2 et sont au nombre de 19. La distinction argument/ajout étant difficile à faire pour les annotatrices, nous avons décidé2.3 Le schéma RAPSODYS dans un premier temps, de ne pas différencier Nous utilisons un schéma qui s’inspire des deux les A- et De-objets des autres objets préposition-schémas précédents (EASY et ALPAGE) et per- nels. Cette différenciation sera faite lors d’unemet une annotation en arbres de dépendances. Les deuxième passe par des linguistes experts. A l’in-noeuds de l’arbre sont les tokens identifiés par la verse, les juxtapositions et appositions, très fré-reconnaissance de la parole ou par la transcrip- quentes à l’oral, justifient l’ajout des relations sup-tion humaine de l’oral. Les arcs sont étiquettés plémentaires correspondantes. La relation dummypar l’une des relations de dépendances définies par est utilisée comme dans le schéma ALPAGE pourle schéma. Comme dans le schéma ALPAGE, le les expressions figées (réfléchis intrinsèques, cli-schéma n’impose pas la projectivité si bien que la tiques figées, etc.) mais également pour l’annota-projection d’un noeud ne correspond pas nécessai- tion des répétitions et des hésitations. La relationrement à un segment continu de la phrase analy- PONCT n’est pas utilisée car absente des transcrip-sée. tions. Comme dans le schéma EASY, les modi- Les relations utilisées sont les suivantes : sujet fieurs sont différenciés suivant le type de leur gou-(suj), objet (obj ), objet prépositionnel (pobj ), at- verneur (verbe, nom, adjectif) afin de faciliter latribut du sujet (atts ), attribut de l’objet (atto ), mo- comparaison avec les données EASY.difieur de verbe (modV ), de nom (modN ), d’ad- Comme le tableau 2 le montre, le passage d’unjectif (modAdj ) ou d’adverbe (modAdv ), complé- schéma d’annotation à un autre est relativementment d’une préposition, d’un complémenteur ou simple. La conversion du format RAPSODYS versd’un pronom relatif (comp ), auxiliaire verbal (aux le format EASY est essentiellement une conver-), apposition (appos ), déterminant (det ), coor- sion par traduction ou élimination de relations
  • 4. (e.g., suj devient SUJ_V et det est éliminé). La suivantes :conversion vers le format ALPAGE implique en – Annotation : permet d’annoter des textes sui-outre soit de regrouper plusieurs catégories en une vant le schéma d’annotation présenté dans laseule (e.g., regrouper de_obj, a_obj et p_obj sous section précédentep_obj), soit de différencier une catégorie unique – Analyse : permet d’analyser du texte avecen plusieurs sous-catégories (e.g., mod en modV , l’analyseur MALTmodAdj , modAdv , modP ). – Apprentissage : permet d’entraîner l’analy- seur MALT sur un ensemble de fichiers anno-3 Environnement logiciel tés – Evaluation : permet de calculer les perfor- Il existe de nombreux environnements pour mances de l’analyseur par rapport à un corpusl’annotation de corpus en dépendances syn- de référencetaxiques tels que par exemple, GRAPH (Salvo, Le logiciel implémenté en Java est dis-2006), Annotate (Plaehen and Brants, 2000), ponible à l’url http://talc.loria.fr/DTAG (Kromann, 2003) and CDG (White, 2000), GraphEdit.html. Il est portable et un clic suf-easyref (de la Clergerie, 2008). Cependant, nous fit à son installation sous Windows comme sousdésirions avoir à disposition un outil qui répondent Linux ou MacOsX. L’annotation se fait par un jeuaux critères listés par (Reidsma et al., 2004) et plus simple d’opérations curseurs sur une interface gra-précisément, un outil qui satisfasse les contraintes phique WYSIWYG2 . Les formats produits sontsuivantes : des formats texte ou XML, Syntex ou ConLL (voir – Facilité d’installation et portabilité : l’anno- infra). tation étant faite en télé-travail par des étu- diantes sans formation informatique, la faci- 3.1 Annotation lité d’installation et d’utilisation est un critère L’outil d’annotation est un outil de visualisation primordial. Le logiciel doit pouvoir être ins- et d’édition de structures syntaxiques en dépen- tallé rapidement et simplement sur les trois dances qui permet d’annoter du texte conformé- grands types de système d’exploitation ac- ment au schéma d’annotation JS YNATS . L’édi- tuellement en usage (MacOS, Linux, Win- tion se fait par des raccourcis claviers opérant sur dows). une interface graphique. Le texte d’entrée peut être – Facilité d’utilisation : l’annotation étant un ou non analysé. En pratique, l’annotation se fait travail fastidieux, il est essentiel que l’inter- par correction des analyses produites par MALT face d’annotation soit aussi ergonomique et . Le format d’entrée et de sortie est le format simple d’utilisation que possible. ConLL. L’outil accepte également le format texte – Extensibilité : l’environnement doit pouvoir et XML utilisé par l’analyseur Syntex (Bourigault être modifié pour répondre à l’évolution des et al., 2005). Une copie d’écran illustrant les re- besoins dictés par un projet de recherche tels présentations manipulées est donnée en Figure 1. que par exemple, des besoins en annotation mais également en apprentissage, analyse et 3.2 Analyse évaluation. La fonctionalité d’analyse permet d’analyser du – Compatibilité : afin de permettre l’évaluation texte avec l’analyseur MALT . Elle prend en entrée des résultats et des outils développés, il im- un fichier texte et produit en sortie un fichier texte porte que les fichiers annotés soient produits où chaque phrase contenue dans le fichier entrant dans un format compatible avec les formats est annotée avec l’analyse produite par l’analy- utilisés par la communauté scientifique tels seur MALT (format ConLL). Actuellement, l’ana- que par exemple, le format ConLL pour l’an- lyse en dépendances de MALT est précédée d’une notation syntaxique. phase d’annotation automatique des séquences de Un examen rapide des logiciels existants mon- mots en classes morpho-syntaxiques. Cette ana-trant qu’aucun de ceux-ci ne permettaient de ré- lyse morpho-syntaxique est réalisée par l’outilpondre à l’ensemble de ces critères, nous avons TreeTagger. Nous envisageons à court terme d’éli-développé un environnement logiciel, appelé JS Y- miner cette dépendance de la plate-forme propo-NATS pour Java software for Syntax Analysis of 2Transcribed Speech qui intégre les fonctionnalités What you see is what you get
  • 5. sée vis-à-vis de TreeTagger afin d’intégrer l’en- 3.4 Evaluationsemble des outils nécessaires au sein d’un logiciel L’environnement JS YNATS permet égalementunique 100 % Java. d’évaluer les performances d’un analyseur produi- En pratique, la fonctionalité d’analyse est uti- sant des données au format ConLL. Les scriptslisée pour la pré-annotation syntaxique des textes d’évaluation sont directement adaptés des scriptspermettant ainsi aux annotatrices de travailler sur distribués pour les campagnes ConLL, et calculentdes textes pré-annotés plutôt que sur des textes donc les mêmes métriques, en particulier le “scoresans aucune annotation syntaxique. Comme l’ana- de rattachement en dépendances typées” (Labeledlyseur est ré-entrainé à chaque nouvelle phase Attachment Score ou LAS) (Surdeanu et al., 2008)d’annotation, la qualité des pré-annotations croît utilisé dans cet article, qui représente le pourcen-avec le temps, diminuant ainsi les temps d’annota- tage de mots pour lesquels le système a prédit letion. En outre, la pré-annotation est généralement bon gouverneur et le bon type de dépendance.correcte au niveau des syntagmes de base (groupesnominaux et prépositionnels non récursifs, noyau 4 Cadre expérimental et évaluationverbal, subordonnées relatives simples, etc.), ce Nous utilisons JS YNATS pour développer unqui permet aux annotatrices de se concentrer sur corpus oral annoté syntaxiquement et entraînerles questions plus complexes liées au rattachement l’analyseur MALT .de ces syntagmes entre eux. 4.1 Corpus utilisé et procédure d’annotation3.3 Apprentissage Le corpus utilisé pour l’apprentissage et le test est issu du corpus d’informations radio- JS YNATS permet d’entraîner MALT sur un en- diffusées produit par le projet Technolangue ES-semble de fichiers contenant du texte annoté syn- TER 2003-2005 (Gravier et al., 2004). Le corpustaxiquement et morpho-syntaxiquement. Des ou- ESTER comporte les transcriptions manuelles detils de conversion de formats permettent de sup- 37 heures d’émissions radiophoniques d’informa-porter les formats ConLL, XML (Syntex) et Tree- tion francophone (années 1998 - 1999 et 2003).Tagger. L’algorithme déterministe de Nivre-Eager Les transcriptions manuelles de ESTER étant des-est utilisé pour l’analyse, et sa version “oracle” tinées au calcul du taux de reconnaissance des sys-produit pour l’apprentissage un ensemble de vec- tèmes de reconnaissance automatique de la parole,teurs d’observation, chaque vecteur étant associé à seuls les mots complets sont annotés : ainsi, lesune des quatre “actions” de l’algorithme de Nivre répétitions sont annotées si les mots répétés sont(Shift, Reduce, Left-Arc et Right-Arc). Les vec- complets, les “euh” d’hésitation sont considérésteurs d’observation incluent les informations sui- comme des mots et sont donc également anno-vantes, qui sont celles proposées par défaut dans tés, mais par contre les bruits, les mots incomplets,MALT : bref tout ce qui ne fait pas partie du “lexique” de reconnaissance, n’est pas annoté. Pour ce travail, – Formes fléchies et lemmes des deux mots po- nous avons également supprimé toute information tentiellement dépendants (L et R) ; de ponctuation avant l’étape d’analyse syntaxique, – Forme fléchie du mot suivant R ; car les sorties des systèmes de transcription auto- – Forme fléchie du mot gouvernant L ; matique ne disposent pas de ces informations. – Classes morpho-syntaxiques de L et R, du Un sous-ensemble de ce corpus composé de 20 mot précédant L, et des trois mots suivants 000 mots est extrait d’émissions de France-Inter R; datées de 1999. Ce sous-corpus est annoté auto- – Types des dépendances issues de L, des dé- matiquement en classes morpho-syntaxiques par pendants les plus à gauche et à droite de L, et l’outil TreeTagger (Schmid, 1995), puis converti du dépendant le plus à gauche de R. au format CONLL. Ensuite, ce corpus enrichi Cet ensemble de vecteurs et leurs classes as- est resegmenté en phrases manuellement, puissociées constitue le corpus d’apprentissage d’un annoté également manuellement en dépendancesclassifieur à base de machines à vecteurs supports syntaxiques selon le guide d’annotation décrit pré-(SVM) servant dans MALT à décider des dépen- cédemment. Cette annotation en dépendances estdances à établir. en fait réalisée itérativement : chaque itération est
  • 6. décomposée en deux phases, respectivement une 2009a)) et la courbe de progression (Figure 3) estphase d’annotation automatique en dépendances encourageante.réalisée par l’analyseur MALT entraîné avec les Nous avons également étudié l’influence dedonnées de l’itération précédente, suivie d’une l’étape supplémentaire de vérification des anno-phase de correction manuelle de ces dépendances. tations en dépendance par une linguiste expert enLes itérations ont pour objectif d’accroître la taille incluant neuf dixièmes du corpus de test (vérifié)du corpus, et un nouveau corpus est considéré dans l’apprentissage de MALT , et en testant surà chaque itération. L’itération initiale est réalisée le dixième restant. Le taux de dépendances cor-avec un petit corpus de 458 mots annoté entière- rectes final est calculé par validation croisée, enment manuellement qui sert à entraîner une pre- faisant varier le dixième du corpus réservé au test.mière version de l’analyseur MALT . Une petite di- Le score LAS passe alors de 70.3% (aucune phrasezaine d’itérations permettent d’aboutir au corpus d’apprentissage n’a été vérifiée par la linguiste ex-décrit dans cet article. pert) à 71.8%. Ce résultat suggère que les erreurs Ce corpus annoté est alors divisé en deux par- d’annotation, qui sont présentes en bien plus grandties, respectivement pour l’apprentissage et le test nombre dans le corpus non vérifié, semblent avoirde MALT : un impact relativement limité sur les performances – Apprentissage : La partie du corpus réser- du système, ce qui résulte probablement du fait vée à l’apprentissage contient 13135 mots et que l’apprentissage statistique du classifieur tend 12199 dépendances. Cette partie est utilisée à éliminer les erreurs non corrélées et assimilables telle quelle pour l’apprentissage de Malt. à du bruit. – Test : La partie du corpus reservée au test su- Nous avons enfin entraîné le système sur les bit une phase supplémentaire de vérification données annotées fournies par la campagne d’éva- et de correction par une linguiste expert. Elle luation des analyseurs syntaxiques EASY. Une contient 5 305 mots et 4 905 dépendances. évaluation préliminaire sur le fichier littéraire_1 de Au terme d’environ 6 semaines d’annotation, ce corpus donne une F-mesure de 50% en dépen-environ 20 000 mots ont pu être annotés par 4 an- dances typées.notatrices. Les annotatrices étaient des étudiantesde linguistique en deuxième et troisième année de 5 Conclusionlicence. Cet article présente un environnement logiciel4.2 Apprentissage et résultats pour l’apprentissage d’analyseurs en dépendances MALT est un système pour l’apprentissage syntaxiques et l’applique à l’apprentissage d’ana-d’analyseurs en dépendances syntaxiques. A par- lyseurs en dépendances pour le Français oral ettir d’un corpus annoté, le système apprend à écrit.projeter des traits syntaxiques et morphosyn- Les résultats préliminaires obtenus à partir detaxiques sur des décisions d’analyse (shift, reduce, corpus restreints sont encourageants et permettentcréation d’arcs de dépendances). C’est un sys- d’espérer avoir prochainement à disposition untème libre source implanté en Java et disponible analyseur syntaxique de l’oral raisonnablementà l’url http://w3.msi.vxu.se/~nivre/ précis. Nous envisageons d’améliorer les perfor-research/MaltParser.html. mances à la fois par une annotation plus extensive Nous avons entrainé le système MALT sur le et par la mise en place de techniques d’appren-corpus d’apprentissage décrit au paragraphe pré- tissage semi-supervisées comme la méthodologiecédent. Les résultats sont largement inférieurs à d’apprentissage actif afin d’augmenter la taille dul’état de l’art pour le texte écrit avec un score corpus d’apprentissage.LAS de 71.8 % en dépendances typées. Par com- Cet analyseur ayant pour objectif principalparaison, l’analyseur développé par (Candito et d’extraire des informations syntaxiques sur un cor-al., 2009a) pour le texte écrit a une précision de pus transmis automatiquement, il reste encore à86.56 % . Ils s’expliquent cependant par la taille évaluer ses performances sur des transcriptions au-réduite du corpus d’apprentissage (15 000 mots tomatiques et son impact sur la détection des dif-contre 385 458 pour le corpus arboré utilisé pour férents types d’erreurs de la reconnaissance, inser-apprendre les dépendances par (Candito et al., tions, omissions et substitutions.
  • 7. Acknowledgments. web pour la syntaxe. Traitement automatique des langues, 49(2) :247–270. Nous remercions l’INRIA pour le financement M. T. Kromann. 2003. The danish dependency tree-de l’Action de Recherche Concertée RAPSODYS bank and the dtag treebank tool. In Proceedingset le pôle TALC (“Traitement automatique des of the 2nd Workshop on Treebanks and Linguisticlangues et des connaissances”) du contrat plan Theories,, Sweden.Etat-Région MISN (“Modélisation, Information et Alexis Nasr and Frédéric Béchet. 2009. AnalyseSystèmes Numériques”) pour le financement de syntaxique en dépendances de l’oral spontané. In Conférence annuelle sur le Traitement Automatiquel’opération ALIGNE. des Langues Naturelles - TALN 2009, Senlis. Joakim Nivre, Jens Hall, Jens Nilsson, A. Chanev, G. Eryigit, S. Kübler, S. Marinov, and E. Marsi.Bibliographie 2007. Maltparser : A language-independent systemAnne Abeillé. 2004. Guide des annotateurs : Anno- for data-driven dependency parsing. Natural Lan- tation fonctionnelle. Technical report, Université de guage Engineering, 13(2) :95–135. Paris 7. O. Plaehen and T. Brants. 2000. Annotate - an efficientAbhishek Arun and Frank Keller. 2005. Lexicalization interactive annotation tool. In Proceedings of the 6th in crosslinguistic probabilistic parsing : The case of Applied Natural Language Processing Conference, french. In Proceedings of the 43rd Annual Mee- Seattle. ting of the Association for Computational Linguis- D. Reidsma, D. Hofs, and N. Jovanovi. 2004. Desi- tics, pages 306–313, Ann Arbor, MI. gning focused and efficient annotation tools. In Hu-Guillaume Bonfante, Bruno Guillaume, and Guy Per- man Media Interaction research group, Centre for rier. 2003. Analyse syntaxique électrostatique. Telematics and Information Technology, Enschede. Traitement Automatique des Langues, 44(3) :93– Azim Roussanaly, Benoît Crabbé, and Jérôme Perrin. 120. 2005. Premier bilan de la participation du LORIAPierre Boullier, Benoit Sagot, and Lionel Clément. à la campagne d’évaluation EASY. In 12e Confé- 2005. Un analyseur lfg efficace pour le français : rence annuelle sur le Traitement Automatique des Sxlfg. In Actes de TALN 05, pages 403–40. Langues Naturelles - TALN 2005, Dourdan, France, 06. ATALA.Didier Bourigault, Cécile Fabre, Cécile Frérot, Marie- Paule Jacques, and S. Ozdowska. 2005. Syntex, J. M. J. Salvo. 2006. Openjgraph - java graph and un analyseur syntaxique de corpus. In actes du col- graph drawing project. http://openjgraph. loque TALN. sourceforge.net/.Marie-Hélène Candito, Benoit Crabbé, and Djamé Sed- Natalie Schluter and Josef van Genabith. 2008. dah. 2009a. On statistical parsing of french with Treebank-based acquisition of lfg parsing resources supervised and semi-supervised strategies. In Pro- for french. In LREC. ceedings EACL Workshop 2009 : Grammatical Infe- H. Schmid. 1995. Improvements in part-of-speech tag- rence for computational linguistics. ging with an application to german. In Proc. Work-Marie-H´ lène Candito, Benoit Crabbé, and Mathieu shop EACL SIGDAT, Dublin. Falco. 2009b. Dépendances syntaxiques de surface M. Surdeanu, R. Johansson, A. Meyers, L. Marquez, pour le français. Technical report, Université de Pa- and J. Nivre. 2008. The conll-2008 shared task on ris 7. joint parsing of syntactic and semantic dependenciesEric Villemonte de la Clergerie. 2008. A collaborative conll 2008. In Proc. 12th Conference on Computa- infrastructure for handling syntactic annotations. In tional Natural Language Learning, pages 159–177, First International Workshop on "Automated Syn- Manchester, August. tactic Annotations for Interoperable Language Re- Éric Villemonte de La Clergerie. 2005. DyALog : a sources", Hong-Kong. tabular logic programming based environment forGil Francopoulo. 2005. Tagparser et technolangue- NLP. In Proceedings of 2nd International Work- easy. In Actes de l’atelier Easy, TALN. shop on Constraint Solving and Language Proces- sing (CSLP’05), Barcelona, Spain, October.Véronique Gendner, Anne Vilnat, Laurence Monceaux, Patrick Paroubek, Isabelle Robba, and Gil Franco- C. White. 2000. Rapid Grammar Development and poulo. 2008. Les annotations syntaxique de réfé- Parsing : Constraint Dependency Grammar with rence peas, version 1.11. Technical report, Projet Abstract Role Values. Ph.D. thesis, Purdue Univer- ANR Passage. sity., West Lafayette, Indiana,.G. Gravier, J.-F. Bonastre, S. Galliano, E. Geoffrois, K. Mc Tait, and K. Choukri. 2004. Ester, une campagne d’évaluation des systèmes d’indexation d’émissions radiophoniques. In Proc. JEP, Fez.Olivier Hamon, Patrick Paroubek, and Djamel Mos- tefa. 2008. Sews : un serveur d’évaluation orienté
  • 8. RAPSODYS (18) ALPAGE (19) P7 (8) EASY (14) suj suj SUJ SUJ_V obj obj OBJ COD_V pobj p_obj P-OBJ CPL_V de_obj DE-OBJ CPL_V a_obj A-OBJ dep atts ats ATS ATB_SO atto ato ATO modV mod MOD MOD_V ref dummy aff aux aux_pass aux_caus det det modN mod MOD_N comp arg_cons, arg_comp, obj, p_obj COMP cc coord, arg_coord COORD multimots ponct modA MOD_A modaDV MOD_R MOD_P appos APP juxt JUXTF IG . 2 – Relations utilisées par les schémas d’annotation pour le françaisLe nombre suivant le nom des schémas indique le nombre de relations postulé par chaque schéma 75 70 65 60 55 50 45 40 0 2000 4000 6000 8000 10000 12000 14000F IG . 3 – Évolution du score de rattachement en dépendances typées (score LAS) obtenu par JS YNATSen fonction de la taille du corpus d’apprentissage. L’axe des abscisses représente le nombre de motsutilisés pour apprendre MALT .