Your SlideShare is downloading. ×
Nouvelles formes de communication écrite - part4
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Nouvelles formes de communication écrite - part4

303
views

Published on

Published in: Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
303
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Tutoriel TAL desNFCEJournée ATALA5 Juin 2004Emilie Guimier De NeefLe présent document contient des informations qui sont la propriété de France Télécom. Lacceptation dece document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractèreconfidentiel de son contenu et lengagement de nen faire aucune reproduction, aucune transmission à destiers, aucune divulgation et aucune utilisation commerciale sans laccord préalable écrit de France TélécomR&D D1 - 09/10/12
  • 2. 4. Un exemple de traitement automatique : Pré-traiter des SMS avant vocalisation chui en fisic ta pa 1 id geeeniaaale 2 kdo pr ludo :-> a2m1 steph Pré-traitement linguistique Synthèse vocale Je suis en physique tas pas une idée de cadeau géniale pour ludo hahaha ! À demain StèphFrance Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D2 - 09/10/12
  • 3. Plan s Architecture du système s L’analyseur de textes «TiLT» s Adaptations de TiLT au pré-traitement des SMS s Limites du pré-traitement s Démonstration du systèmeFrance Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D3 - 09/10/12
  • 4. Architecture du système• Combinaison de 3 briques logicielles de FTR&D :  Prolix : identification de la langue  TiLT : analyse linguistique  CVOX : synthèse vocale• Le message SMS reçu est… 1. …envoyé à un serveur Prolix de reconnaissance de langue. 2. …pré-traité linguistiquement par TiLT (SMS français uniquement) 3. …envoyé à un serveur CVOX de synthèse vocale anglaise, allemande ou françaiseFrance Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D4 - 09/10/12
  • 5. Lanalyseur de textes TiLT Principales étapes et données : ⇒ Découpage dun texte en Segmentation Données de segmentation phrases, mots, numéros, signes de ponctuation etc. Lexiques (ensemble des mots ⇒ Association de chaque mot à Analyse dune langue avec information ces différentes analyses hors lexicale morpho-flexionnelles) contexte Stratégie de correction Méthodes de (réaccentuation, phonétique, ⇒ Correction des formes Corrections typographique, morphologique, erronées décollement etc.) Grammaire (règles décrivant la ⇒ Désambiguïsation lexicale Chunking séquentialité des mots dune par exploration du contexte langue) Règles de mise en forme ⇒ Restitution adaptée du texte Restitution (élision, tirets, espaces, formes analysé contractées etc.)France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D5 - 09/10/12
  • 6. Adaptations de TiLT au pré-traitement des SMS(1) s Objectif : améliorer/permettre la vocalisation des SMS Q"corriger" les formes SMS même écrites phonétiquement Qrestituer certaines marques formelles importantes (apostrophes, tirets, majuscules etc) Qrepérer les smileys pour bloquer leur épellationFrance Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D6 - 09/10/12
  • 7. Adaptations de TiLT au pré-traitement des SMS(2)s Procédés décriture : QAbréviations dsl pr staprem / MDR le 6né Recensement des formes les plus fréquentes (un millier environ) Association à une/plusieurs formes expansées QEcriture phonétique et par rébus: on se dbrouille / g ht du kfé Données de segmentation adaptées (chiffres dans les mots) Recensement des fomes les plus fréquentes (une centaine) Modification du phonétiseur pour interprétation dynamique en mode correction phonétique QTroncation des mots : Veuillez mappeler à ce numér Correction de la troncature à 1 caractère QAgglutination de mots : jatend son cou 2filFrance TélécomAdaptation du mode correctif séparation R&D La communication de ce document est soumise à autorisation de France Télécom R&D D7 - 09/10/12
  • 8. Adaptations de TiLT au pré-traitement des SMS(3)s Marques émotionnelles : QSmileys : slt ;-> / pq tapel pa :( Données de segmentation adaptées Restitution sous forme de balises sonores QModification expressive de la graphie : g u 16 en fisic suupppeeer Développement dun mode de correction tolérant à la répétition de caractèresFrance Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D8 - 09/10/12
  • 9. Adaptations de TiLT au pré-traitement des SMS(4)s Corrections et abréviations génèrent une ambiguïté plus importante quen langue standards Labsence de certaines marques formelles (apostrophes, signes de ponctuation, majuscules, tirets etc.) brouille les repères de la grammaires Adaptation de la grammaire pour : QAffiner certaines descriptions (questions, mots réduits à une lettre) QCerner des îlots de confiance (salutations pour lidentification des noms propres etc.) QDécider contextuellement de linterprétation dune chaîneFrance Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D9 - 09/10/12
  • 10. Adaptations de TiLT au pré-traitement des SMS(4) s Mise en forme du message : QElisions : J n en ai pa l droit Décidée contextuellement à la restitution du message QTirets : va t on se boir un verre? Ajout de tirets dans des configurations syntaxiques particulières QMajuscule en début de nom propre : Bjr jean claude ca va?France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D10 - 09/10/12
  • 11. Limites de lapproche s Tous les phénomènes ne sont pas traités : QPas de procédés dynamiques pour tous les mécanismes décriture QDifficulté dinterprétation si cumul de procédés (agglutination de mots + écriture phonétique) QSegmentation des unités lexicales impossible en labsence de séparateur QDifficulté augmente avec la longueur du message Q…France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D11 - 09/10/12