• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Vers une nouvelle approche de la correction grammaticale automatique
 

Vers une nouvelle approche de la correction grammaticale automatique

on

  • 3,907 views

 

Statistics

Views

Total Views
3,907
Views on SlideShare
3,905
Embed Views
2

Actions

Likes
0
Downloads
13
Comments
0

1 Embed 2

http://www.slideshare.net 2

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Vers une nouvelle approche de la correction grammaticale automatique Vers une nouvelle approche de la correction grammaticale automatique Presentation Transcript

    • Vers une nouvelle approche de la correction grammaticale automatique Agnès Souque Doctorante, Laboratoire Lidilem, Université Stendhal – Grenoble 3 Doctorante – conseil auprès de Linagora 1
    • Qui suis-je... Une quot;Talistequot; – TAL : Traitement Automatique des Langues – Traitement informatique des données langagières – Intégration de modèles linguistiques dans des applications informatiques – => correction orthographique, grammaticale 2
    • Sommaire ● Existant ● Amélioration du correcteur LanguageTool ● Les limites ● Reconsidération du problème 3
    • Existant Précédents travaux ● Correction grammaticale ≠ orthographique ● Pas de correcteur grammatical générique libre pour le français ● Projet de correcteur grammatical français libre pour OpenOffice.org – Travaux de M. Lechelt sur An Gramadóir 4
    • Existant Structure des correcteurs grammaticaux Texte à Segmentation du texte en phrases, puis en vérifier ➔ TOKENISATION phrases et tokens tokens (mots + ponctuations) T Étiquetage A morpho- ➔ Étiquetage des mots avec les informations G syntaxique G I texte étiqueté sur leurs catégories et sous-catégories. N Désambi- G guïsation ➔ Réduction du nombre d'étiquettes (tags) texte étiqueté désambiguïsé par mot. CHUNKING Phrases segmentées ➔ Segmentation à un niveau intermédiaire en chunks DÉTECTION entre la phrase et le mot. DES FAUTES règles d'erreurs ➔ Détection des fautes par correspondance entre le texte et un modèle dans une règle. ou de grammaire Texte corrigé 5
    • Existant Correcteur grammatical libre LanguageTool Créé par Daniel Naber pour l'anglais Texte à vérifier ● TOKENISATION phrases et tokens ● Extension d'OpenOffice.org T Étiquetage A morpho- ● Structure : G syntaxique G I texte étiqueté – Pas de désambiguïsation, ni de chunking Règles d'erreurs en XML N Désambi- G guïsation – texte étiqueté texte étiqueté désambiguïsé désambiguïsé <rule name=quot;ma (m'a)quot; id=quot;MAquot;> CHUNKING <pattern> Phrases <token>ma</token> segmentées en chunks <token postag_regexp=quot;yesquot; postag=quot;V.*quot;/> DÉTECTION DES FAUTES </pattern> règles d'erreurs <message>Vouliez-vous écrire m'a ?</message> ou de grammaire <example type=quot;correctquot;>Il m'a répondu</example> Texte corrigé <example type=quot;incorrectquot;>Il ma répondu</example> </rule> 6
    • Améliorations de LanguageTool Texte à Ajout de la désambiguïsation : vérifier ● TOKENISATION Règle : quot;sa + verbe = fauxquot; phrases et tokens – T Étiquetage A morpho- Sa porte est fermée => faux car porte est ambigu G syntaxique G texte étiqueté (nom, mais aussi verbe) I N Désambi- G guïsation ● Ajout de la segmentation en chunks : texte étiqueté désambiguïsé – Délimitation de groupes de mots CHUNKING Phrases * [Les enfants] [en situation] [de blocage] [vont utilisé] segmentées en chunks [le code restreint] DÉTECTION DES FAUTES ● Ajout de l'unification : règles d'erreurs ou de grammaire – détermine si bons accords dans les chunks Texte corrigé ou pas 7
    • Améliorations de LanguageTool ● Nouvelles règles de corrections : – Règles créées pour Gramadóir réécrites en XML : ● généralisations, regroupements => 450 règles sur les groupes nominaux au départ, réduites à 4 – Création de règles à partir de l'analyse d'un corpus de fautes (corpus COVAREC – Lidilem Grenoble 3) ● Erreurs détectées par LanguageTool : – Confusion d'homophones : ça/sa, a/à, son/sont, etc. – Accords au sein des groupes nominaux:*des formule – Erreurs au sein des groupes verbaux : * j'ai trouver – Accords sujet-verbe : * on devrez 8
    • Les limites Pattern-matching rigide : – Prévoir toutes les contextes de fautes possibles ● Travail très coûteux, ● à refaire pour chaque langue ● Explosion combinatoire des règles dans les groupes nominaux – Silence/bruit (orthographe, étiquetage, etc.) – Limitation au contexte immédiat 9
    • Reconsidération du problème Nouvelle approche de la correction grammaticale ● Sortir de l'approche en couches quot;top-downquot;: 1)Segmentation 2)Étiquetage 3)Correction ● Sortir du cercle vicieux de cette approche : ➢ Pas d'erreur > bon étiquetage > bonne détection ● Sortir de l'approche énumérative et déclarative des fautes 10
    • Reconsidération du problème Nouvelle approche de la correction grammaticale Nouvelle approche quot;left-rightquot; – Analyse morpho-syntaxique et correction grammaticale au fur et à mesure de la lecture * Les premiers linguistes on donc d'abord écouté [GN----------------------][ erreur => problème d'attendu à droite du groupe nominal – Détection d'incohérences, déclaration de ce qui est attendu, au lieu des fautes 11
    • Reconsidération du problème Nouvelle approche de la correction grammaticale ● Reconsidération complète du formalisme et du traitement ● Conception d'un analyseur morpho-syntaxique robuste ● Constitution d'un corpus d'erreurs – Définition d'une typologie des erreurs – Validation de l'analyseur ● Formalisme de description générique 12
    • Merci de votre attention agnes.souque@free.fr 13