SlideShare a Scribd company logo
1 of 24
Approche, traitement et visualisation de la
 compr´hensibilit´ de textes en allemand
      e          e
            GREYC – S´minaire I3
                     e


              Adrien Barbaresi
               ICAR / ENS Lyon




                10 avril 2012




                                              1 / 24
Plan de l’expos´
               e



  1   Pr´sentation du sujet
        e
  2   ´
      Etat des lieux
  3   Hypoth`ses de recherche
            e
  4   M´thode et outils
       e
  5   Aper¸u de la visualisation
          c
  6   Conclusion




                                   2 / 24
Introduction


Qui suis-je ?


Titulaire d’un master d’´tudes germaniques.
                        e
M´moire de M2 d´j` sous la direction de Benoˆ Habert, occasion d’une
  e               ea                        ıt
mise ` niveau en linguistique informatique.
     a

Th`se en cours sous la direction de Benoˆ Habert (ENS Lyon) et de
   e                                      ıt
Henning Lobin (Universit¨t Gießen – Allemagne). Inscrit en sciences du
                         a
langage en France et en linguistique informatique en Allemagne.

Travail sur l’allemand, ´largissement envisag´ ` l’anglais et au fran¸ais.
                        e                    ea                      c

→ Pr´senter l’´tat de mes recherches tant qu’il est encore temps de faire
     e        e
des modifications...




                                                                             3 / 24
Introduction


Une interface de visualisation d´j` finalis´e
                                ea        e
le corpus de discours politiques allemands


Poster pr´sent´ ` la section linguistique informatique de la conf´rence
         e     ea                                                e
annuelle de la DGfS, Francfort, 6-9 mars 2012.
Diagrammes et export du texte au format XHTML.
CSS et Javascript pour l’affichage, contenu statique (pages pr´g´n´r´es).
                                                            e e ee


Ressource accessible en ligne :
http://purl.org/corpus/german-speeches




                                                                          4 / 24
Introduction   Enjeux


Introduction : quelques enjeux du sujet



    Assistance ` la compr´hension, accessibilit´
               a         e                     e
    Outillage de la langue
    Th`me interdisciplinaire, diff´rentes traditions
       e                         e
    (impact sur la terminologie employ´e)
                                       e

Quelques applications existantes :
    Amazon (cf diapositives suivantes)
    Duolingo




                                                      5 / 24
Introduction   Enjeux


Les statistiques textuelles d’Amazon
Depuis l’´t´ 2011, Amazon propose des statistiques sur certains de ses
         ee
livres.




Astrid Lindgren,                           William Faulkner,
Pippi Longstocking                         The Sound and The Fury

                                                                         6 / 24
Introduction   Enjeux


Les statistiques textuelles d’Amazon : br`ve explication
                                         e


    Les formules de lisibilit´ employ´es mesurent la longueur des mots et
                             e       e
    des phrases.
    ‘A word is considered “complex” if it has three or more syllables’
    ⇒ Schwarzenegger est-il un mot si difficile ` comprendre ?
                                                a
    Certains chiffres correspondent normalement aux diff´rents niveaux du
                                                      e
    syst`me scolaire am´ricain.
        e               e

Pour plus d’informations :
    Book Lies : Readability is Impossible to Measure
    A note on Amazon’s text readability stats (sur mon blog)



                                                                         7 / 24
Introduction   Enjeux


Interview de Sabine Ludwig : un autre point de vue
´
Ecrivain et traductrice vivant ` Berlin.
                               a
Elle est contre toute forme de simplification.


    Dans les ann´es 70, une tradition d’´criture a vu le jour, selon laquelle
                e                       e
    le contenu comme la forme doivent ˆtre ´pur´s et lisibles.
                                        e e e
    Ce sont les parents et les grand-parents qui d´cident de l’achat d’un
                                                     e
    livre, ce dernier doit avant tout avoir l’air int´ressant. Or, tout ce qui
                                                     e
    achet´ n’est pas lu, loin de l`.
           e                      a

    Il est important que les enfants comprennent l’atmosph`re d’un livre,
                                                          e
    pas forc´ment tous les mots.
             e
    La lisibilit´ est ` rapprocher d’une mani`re de conduire le lecteur et
                e     a                      e
    de donner un rythme au texte.


                                                                             8 / 24
Introduction   Enjeux


Un exemple lisible, et pourtant... – Heidi
  Da hingen seine Kleider drin und auf einem Gestell lagen ein paar
Hemden, Str¨mpfe und T¨cher und auf einem anderen einige Teller und
            u            u
Tassen und Gl¨ser und auf dem obersten ein rundes Brot und ger¨uchertes
              a                                                 a
Fleisch und K¨se, denn in dem Kasten war alles enthalten, was der
             a
      ¨
Alm-Ohi besaß und zu seinem Lebensunterhalt gebrauchte.

  Als nun dieser Punkt der H¨he erreicht war, nahm Peter seinen Sack ab
                               o
und legte ihn sorgf¨ltig in eine kleine Vertiefung des Bodens hinein, denn
                   a
der Wind kam manchmal in starken St¨ßen dahergefahren, und den kannte
                                         o
Peter und wollte seine kostbare Habe nicht den Berg hinunterrollen sehen ;
dann streckte er sich lang und breit auf den sonnigen Weideboden hin,
denn er musste sich nun von der Anstrengung des Steigens erholen.

Phrases tir´es de Heidis Lehr- und Wanderjahre, de Johanna Spyri (1880)
           e
(Source : http://gutenberg.spiegel.de/buch/5611/1)

                                                                       9 / 24
´
                         Etat de la recherche


´
Etat de la recherche – le choix des mots




    Complexit´ (lexicale, syntaxique ou linguistique)
             e
    Lisibilit´ (versant cognitif, formules)
             e
    Compr´hensibilit´
         e          e




                                                        10 / 24
´
                         Etat de la recherche


Approche       taliste       ou ax´e sur la visualisation
                                  e

Sujet largement r´pandu, en particulier concernant l’anglais : ateliers `
                 e                                                      a
LREC et NAACL.

                                                Recherche en informatique,
 Recherche en TAL                               visualisation
 Approche centr´e sur des
                 e                              Adaptation de techniques de
 techniques de rep´rage et des
                    e                           visualisation courante ` cet objet
                                                                       a
 m´triques d’´valuation
   e          e                                 de recherche.
 (cf diapositive suivante).                     Exemple de D. Keim , D. Oelke
                                                et al. ` Constance.
                                                       a
                                                Voir aussi Karmakar & Zhu.




                                                                                11 / 24
´
                                       Etat de la recherche


´
Etat de la recherche en TAL
  1   corpus linguistics / armchair linguistics
  2   Formules de lisibilit´
                           e
  3   La tendance → intelligence artificielle, apprentissage artificiel
  4   D’une part des cat´gories plus d´taill´es, d’autre part des processus
                         e            e     e
      de d´tection plus complexes
          e
  5   Complexit´ globale / locale
               e

          Over the last ten years, work on readability deployed sophisticated
      NLP techniques [...] to capture more complex linguistic features and
      used statistical machine learning to build readability assessment tools.
      [...] Yet, besides lexical and syntactic complexity features there are
      other important factors, such as the structure of the text, the definition
      of discourse topic, discourse cohesion and coherence and so on
      F. Dell’Orletta et al., ”READ–IT : Assessing Readability of Italian Texts with a View to Text Simplification”, in

      Proceedings of the 2nd Workshop on Speech and Language Processing for Assistive Technologies, Edinburgh,

      2011, p. 74.
                                                                                                                         12 / 24
Hypoth`ses de recherche
                            e                   Une analyse de surface


1`re hypoth`se : un survol du texte en surface
 e         e


→ L’analyse de surface donne des r´sultats satisfaisants. L’op´ration doit
                                    e                         e
simuler un premier survol du texte.


    Avant tout une approche ` base de r`gles.
                            a          e
    Une perspective linguistique sur les ph´nom`nes (et non directement
                                           e   e
    op´ratoire ou quantitative).
      e
    Utiliser plutˆt peu de ressources (surtout par manque de temps)
                 o
    mˆme si des analyses plus complexes au niveau s´mantique et
      e                                                e
    discursif pourraient apporter de meilleurs r´sultats.
                                                e




                                                                         13 / 24
Hypoth`ses de recherche
                           e                   Le primat de l’annotation


2`me hypoth`se : le primat de l’annotation
 e         e



→ D’abord annoter et ensuite classer.


    Annotation au format XML ` plusieurs niveaux, en essayant de se
                               a
    conformer aux standards de la TEI.
    Permet une analyse multidimensionnelle, de mˆme que l’´tablissement
                                                e         e
    de profils.
    Le marquage du texte peut ˆtre le support d’une visualisation.
                              e




                                                                           14 / 24
Hypoth`ses de recherche
                            e                   Transparence


3`me hypoth`se : la transparence des processus
 e         e

→ D’une boˆ noire ` une boˆ transparente .
               ıte         a          ıte
Corpus et outils doivent ˆtre rendus disponibles ` la fin.
                         e                       a


    Reproductibilit´ existante mais limit´e dans le temps des r´sultats
                   e                     e                     e
    (outils plus ou moins stabilis´s).
                                  e
    La (re)publication des corpus est un sujet ` part enti`re...
                                                a           e
    Le travail sur des corpus transmissibles doit ˆtre privil´gi´.
                                                  e          e e
    Architecture modulaire des programmes de traitement : meilleure
    adaptation, plusieurs variantes possibles.
    Toutes les lignes de code pr´sentables seront publi´es sous une licence
                                e                      e
    open-source.



                                                                          15 / 24
M´thode
                                 e        Crit`res et instruments
                                              e


Int´grer et associer diff´rents instruments
   e                    e
Chaˆ de traitement
   ıne
  1   D´coupage en tokens → scripts Perl
       e
  2   Etiquetage morpho-syntaxique → TreeTagger/RFTagger
  3   Analyse de surface → automates ` ´tats finis
                                     ae
  4   Texte annot´ → base de donn´es SQLite
                 e               e
  5   Mesures → scripts Perl
  6   Export → base de donn´es SQLite et fichier XML
                           e


Outils ` l’´tude
       a e
      Reconnaissance d’entit´s nomm´es
                            e      e
      Chaˆ
         ınes lexicales et/ou r´seaux lexicaux, ontologies
                               e
      Textom´trie (TXM, http://txm.sourceforge.net)
            e
      Statistiques (R)
                                                                    16 / 24
M´thode
                                e        Crit`res et instruments
                                             e


Principaux crit`res de mesure
               e


Morphologie et lexique longueur (en syllabes et caract`res), r´partition des
                                                      e       e
            mots diff´rents, comparaison avec des listes de mots
                      e
            (fr´quence, n´ologismes)
               e          e
    Syntaxe Propositions subordonn´es, rection et compl´mentation des
                                   e                   e
            verbes, composition des groupes nominaux, r´partition des
                                                        e
            pronoms
 S´mantique Densit´ conceptuelle, noms propres, polys´mie
  e               e                                  e
Discours et texte r´partition des connecteurs, segmentation th´matique,
                   e                                          e
              coh´sion et coh´rence, style
                 e            e




                                                                         17 / 24
M´thode
                                e        Corpus


Corpus de travail
→ Un probl`me allemand : en raison d’une l´gislation abondante et
             e                                      e
restrictive concernant le droit d’auteur, rares sont les corpus librement
disponibles.
Corpus    crawl´s
               e     et paires comparables
    Geo et Geolino
    ´tude comparative
    e
    Die Zeit et Die Bild-Zeitung (´ventuellement)
                                  e
    comparaison possible des th`mes et des rubriques.
                                e
    Discours politiques allemands (environ 3500)
    Pr´sidence, Chancellerie et Affaires ´trang`res
      e                                 e     e
    http ://purl.org/corpus/german-speeches
    HanisauLand : Centre f´d´ral d’´ducation civique
                            e e    e
    (600 d´finitions sous licence CC BY-NC-ND)
          e

                                                                        18 / 24
M´thode
                                e        Corpus


D´monstration
 e

Toute premi`re version d’un prototype...
           e

Conversion du format de repr´sentation interne (SQLite) ` la
                            e                               a
visualisation (pages XHTML)
´
Elements ` afficher : noms de classes CSS, modifi´es ` la vol´e par
           a                                  e a         e
Javascript
Options pr´sent´es : r´glage du contraste + deux correctifs pour l’instant.
          e    e      e


⇒ Apport de la visualisation pour l’analyse des ph´nom`nes
                                                  e   e
  exemple des mots-cl´s.
                       e




                                                                        19 / 24
M´thode
                                  e        Corpus


Am´liorations envisag´es
  e                  e




  1   Info-bulles
  2   Zoom avant et arri`re sur le texte
                        e
  3   Plus de crit`res s´lectionnables, profils
                  e     e




                                                    20 / 24
M´thode
                                e        Corpus


Profils




   Enfants (limites d’ˆge ?)
                      a
   Apprenants d’une langue ´trang`re
                           e     e
   Adultes, langue maternelle (Formation, CSP ?)
   Troisi`me, ou plutˆt quatri`me ˆge
         e           o        e   a




                                                   21 / 24
M´thode
                                 e        Corpus


Validation



→ Une ´tude sur un panel (pr´vue fin 2012)
      e                     e


    Questionnaires et marquage de passages
    (en ligne)
    Renseignements sur les participants
    ´
    Etablir et tester la validit´ des profils
                                e




                                                   22 / 24
Conclusion


Conclusion




Probl`mes ` r´soudre
     e    a e
    La compr´hensibilit´, pour quoi et pour qui ?
            e          e
        Combien d’indicateurs sont n´cessaires ?
                                     e
        Comment les pond´rer ?
                           e
        Quel(s) public(s) prendre en compte ?
    Comment repr´senter clairement les r´sultats ?
                e                       e




                                                     23 / 24
Conclusion


Informations

Contact : adrien.barbaresi@ens-lyon.fr

Blog : http://perso.ens-lyon.fr/adrien.barbaresi/blog/

Twitter : adbarbaresi

Association de doctorants de l’ENS Lyon (ENth`Se)
                                             e
Ressources pour les jeunes chercheurs
http://enthese.ens-lyon.fr


Document sous licence CC BY-SA




                                                         24 / 24

More Related Content

Viewers also liked

Citizen act comment faire du buzz_2011_2012
Citizen act comment faire du buzz_2011_2012Citizen act comment faire du buzz_2011_2012
Citizen act comment faire du buzz_2011_2012CITIZEN ACT
 
Conférence StatusNet JDLL 2010
Conférence StatusNet JDLL 2010Conférence StatusNet JDLL 2010
Conférence StatusNet JDLL 2010Philippe Scoffoni
 
Chamonix Aiguille Du Midi
Chamonix Aiguille Du MidiChamonix Aiguille Du Midi
Chamonix Aiguille Du Mididark73
 
La política social de la Unión Europea. Especial atención a la libre circul...
La política social de la Unión Europea.  Especial  atención a la libre circul...La política social de la Unión Europea.  Especial  atención a la libre circul...
La política social de la Unión Europea. Especial atención a la libre circul...Universidad Autónoma de Barcelona
 
Musica del món 2
Musica del món 2Musica del món 2
Musica del món 2monturiol
 
Bienvenue Au Centre De Doc
Bienvenue Au Centre De DocBienvenue Au Centre De Doc
Bienvenue Au Centre De DocPauline Longin
 
Cantro de integracion y capacitacion cat1 reinaldo lay
Cantro de integracion y capacitacion cat1 reinaldo layCantro de integracion y capacitacion cat1 reinaldo lay
Cantro de integracion y capacitacion cat1 reinaldo layreinaldo
 
Etude PwC Enseignements de l’exercice de Collecte du 6/09 (jan. 2014)
Etude PwC Enseignements de l’exercice de Collecte du 6/09 (jan. 2014)Etude PwC Enseignements de l’exercice de Collecte du 6/09 (jan. 2014)
Etude PwC Enseignements de l’exercice de Collecte du 6/09 (jan. 2014)PwC France
 
Presentacion Tarea
Presentacion TareaPresentacion Tarea
Presentacion Tareaguest367b690
 
La guerra de las campanas
La guerra de las campanasLa guerra de las campanas
La guerra de las campanasluisel
 
Présentation Drupal - Global Training Days
Présentation Drupal - Global Training DaysPrésentation Drupal - Global Training Days
Présentation Drupal - Global Training DaysALTER WAY
 

Viewers also liked (19)

Lavie1
Lavie1Lavie1
Lavie1
 
Le Passé Composé
Le Passé ComposéLe Passé Composé
Le Passé Composé
 
Citizen act comment faire du buzz_2011_2012
Citizen act comment faire du buzz_2011_2012Citizen act comment faire du buzz_2011_2012
Citizen act comment faire du buzz_2011_2012
 
Cremone Diapo Angelica
Cremone Diapo AngelicaCremone Diapo Angelica
Cremone Diapo Angelica
 
Tics
TicsTics
Tics
 
Conférence StatusNet JDLL 2010
Conférence StatusNet JDLL 2010Conférence StatusNet JDLL 2010
Conférence StatusNet JDLL 2010
 
Chamonix Aiguille Du Midi
Chamonix Aiguille Du MidiChamonix Aiguille Du Midi
Chamonix Aiguille Du Midi
 
Mo Nz3
Mo Nz3Mo Nz3
Mo Nz3
 
La política social de la Unión Europea. Especial atención a la libre circul...
La política social de la Unión Europea.  Especial  atención a la libre circul...La política social de la Unión Europea.  Especial  atención a la libre circul...
La política social de la Unión Europea. Especial atención a la libre circul...
 
Plaquette A2IE Cabinet Investigations Intelligence Economique Boillot
Plaquette  A2IE Cabinet  Investigations  Intelligence  Economique  BoillotPlaquette  A2IE Cabinet  Investigations  Intelligence  Economique  Boillot
Plaquette A2IE Cabinet Investigations Intelligence Economique Boillot
 
Musica del món 2
Musica del món 2Musica del món 2
Musica del món 2
 
Moodle18 manual prof
Moodle18 manual profMoodle18 manual prof
Moodle18 manual prof
 
Bienvenue Au Centre De Doc
Bienvenue Au Centre De DocBienvenue Au Centre De Doc
Bienvenue Au Centre De Doc
 
Cantro de integracion y capacitacion cat1 reinaldo lay
Cantro de integracion y capacitacion cat1 reinaldo layCantro de integracion y capacitacion cat1 reinaldo lay
Cantro de integracion y capacitacion cat1 reinaldo lay
 
Etude PwC Enseignements de l’exercice de Collecte du 6/09 (jan. 2014)
Etude PwC Enseignements de l’exercice de Collecte du 6/09 (jan. 2014)Etude PwC Enseignements de l’exercice de Collecte du 6/09 (jan. 2014)
Etude PwC Enseignements de l’exercice de Collecte du 6/09 (jan. 2014)
 
Presentacion Tarea
Presentacion TareaPresentacion Tarea
Presentacion Tarea
 
La guerra de las campanas
La guerra de las campanasLa guerra de las campanas
La guerra de las campanas
 
Présentation Drupal - Global Training Days
Présentation Drupal - Global Training DaysPrésentation Drupal - Global Training Days
Présentation Drupal - Global Training Days
 
Reglamento sena[1]
Reglamento sena[1]Reglamento sena[1]
Reglamento sena[1]
 

Similar to Approche, traitement et visualisation de la compréhensibilité de textes en allemand

La bibliothèque de l'apprenant
La bibliothèque de l'apprenantLa bibliothèque de l'apprenant
La bibliothèque de l'apprenantEric Durel
 
Conf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quantiConf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quantimap8slide
 
Absence d’interculturel dans l’enseignement du français en chine 1
Absence d’interculturel dans l’enseignement du français en chine 1Absence d’interculturel dans l’enseignement du français en chine 1
Absence d’interculturel dans l’enseignement du français en chine 1yulu523
 
Absence d’interculturel dans l’enseignement du français en chine 1
Absence d’interculturel dans l’enseignement du français en chine 1Absence d’interculturel dans l’enseignement du français en chine 1
Absence d’interculturel dans l’enseignement du français en chine 1yulu523
 
asp-2643.pdf
asp-2643.pdfasp-2643.pdf
asp-2643.pdfHamici1
 
Comprehension en lecture au cp
Comprehension en lecture au cpComprehension en lecture au cp
Comprehension en lecture au cpInspection de Lure
 
Adosphère 1 part1
Adosphère 1 part1Adosphère 1 part1
Adosphère 1 part1Sara Palos
 
PRODUCTION_DECRITS_ET_OUTILS_MULTIMEDIAS-3.ppt
PRODUCTION_DECRITS_ET_OUTILS_MULTIMEDIAS-3.pptPRODUCTION_DECRITS_ET_OUTILS_MULTIMEDIAS-3.ppt
PRODUCTION_DECRITS_ET_OUTILS_MULTIMEDIAS-3.pptSOUADBENABBES1
 
Plan de pratique de la langue
Plan de pratique de la languePlan de pratique de la langue
Plan de pratique de la languenascimentosabino
 
Oeuvre littéraire au programme
Oeuvre littéraire au programme Oeuvre littéraire au programme
Oeuvre littéraire au programme louiz driss
 
Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...
Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...
Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...Thierry Vanoffe
 

Similar to Approche, traitement et visualisation de la compréhensibilité de textes en allemand (20)

Guia 2
Guia 2Guia 2
Guia 2
 
La bibliothèque de l'apprenant
La bibliothèque de l'apprenantLa bibliothèque de l'apprenant
La bibliothèque de l'apprenant
 
Conf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quantiConf map Amiens mai 2012 quali/quanti
Conf map Amiens mai 2012 quali/quanti
 
Absence d’interculturel dans l’enseignement du français en chine 1
Absence d’interculturel dans l’enseignement du français en chine 1Absence d’interculturel dans l’enseignement du français en chine 1
Absence d’interculturel dans l’enseignement du français en chine 1
 
Absence d’interculturel dans l’enseignement du français en chine 1
Absence d’interculturel dans l’enseignement du français en chine 1Absence d’interculturel dans l’enseignement du français en chine 1
Absence d’interculturel dans l’enseignement du français en chine 1
 
asp-2643.pdf
asp-2643.pdfasp-2643.pdf
asp-2643.pdf
 
Coursjournal
CoursjournalCoursjournal
Coursjournal
 
Comprehension en lecture au cp
Comprehension en lecture au cpComprehension en lecture au cp
Comprehension en lecture au cp
 
Socle
SocleSocle
Socle
 
CyberquêTe Ii
CyberquêTe IiCyberquêTe Ii
CyberquêTe Ii
 
Diapo fo diff lecture 08012013
Diapo fo diff lecture 08012013Diapo fo diff lecture 08012013
Diapo fo diff lecture 08012013
 
Adosphère 1 part1
Adosphère 1 part1Adosphère 1 part1
Adosphère 1 part1
 
Catalogue pédagogique secondaire 2014 2015
Catalogue pédagogique secondaire 2014 2015Catalogue pédagogique secondaire 2014 2015
Catalogue pédagogique secondaire 2014 2015
 
Catalogue pédagogique primaire 2014 2015
Catalogue pédagogique primaire 2014 2015Catalogue pédagogique primaire 2014 2015
Catalogue pédagogique primaire 2014 2015
 
PRODUCTION_DECRITS_ET_OUTILS_MULTIMEDIAS-3.ppt
PRODUCTION_DECRITS_ET_OUTILS_MULTIMEDIAS-3.pptPRODUCTION_DECRITS_ET_OUTILS_MULTIMEDIAS-3.ppt
PRODUCTION_DECRITS_ET_OUTILS_MULTIMEDIAS-3.ppt
 
Plan de pratique de la langue
Plan de pratique de la languePlan de pratique de la langue
Plan de pratique de la langue
 
Oeuvre littéraire au programme
Oeuvre littéraire au programme Oeuvre littéraire au programme
Oeuvre littéraire au programme
 
Guia 1
Guia 1Guia 1
Guia 1
 
Programme C1
Programme C1Programme C1
Programme C1
 
Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...
Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...
Google Apps : quels enjeux pour les organisations ? Mémoire fin d'étude SKEMA...
 

Approche, traitement et visualisation de la compréhensibilité de textes en allemand

  • 1. Approche, traitement et visualisation de la compr´hensibilit´ de textes en allemand e e GREYC – S´minaire I3 e Adrien Barbaresi ICAR / ENS Lyon 10 avril 2012 1 / 24
  • 2. Plan de l’expos´ e 1 Pr´sentation du sujet e 2 ´ Etat des lieux 3 Hypoth`ses de recherche e 4 M´thode et outils e 5 Aper¸u de la visualisation c 6 Conclusion 2 / 24
  • 3. Introduction Qui suis-je ? Titulaire d’un master d’´tudes germaniques. e M´moire de M2 d´j` sous la direction de Benoˆ Habert, occasion d’une e ea ıt mise ` niveau en linguistique informatique. a Th`se en cours sous la direction de Benoˆ Habert (ENS Lyon) et de e ıt Henning Lobin (Universit¨t Gießen – Allemagne). Inscrit en sciences du a langage en France et en linguistique informatique en Allemagne. Travail sur l’allemand, ´largissement envisag´ ` l’anglais et au fran¸ais. e ea c → Pr´senter l’´tat de mes recherches tant qu’il est encore temps de faire e e des modifications... 3 / 24
  • 4. Introduction Une interface de visualisation d´j` finalis´e ea e le corpus de discours politiques allemands Poster pr´sent´ ` la section linguistique informatique de la conf´rence e ea e annuelle de la DGfS, Francfort, 6-9 mars 2012. Diagrammes et export du texte au format XHTML. CSS et Javascript pour l’affichage, contenu statique (pages pr´g´n´r´es). e e ee Ressource accessible en ligne : http://purl.org/corpus/german-speeches 4 / 24
  • 5. Introduction Enjeux Introduction : quelques enjeux du sujet Assistance ` la compr´hension, accessibilit´ a e e Outillage de la langue Th`me interdisciplinaire, diff´rentes traditions e e (impact sur la terminologie employ´e) e Quelques applications existantes : Amazon (cf diapositives suivantes) Duolingo 5 / 24
  • 6. Introduction Enjeux Les statistiques textuelles d’Amazon Depuis l’´t´ 2011, Amazon propose des statistiques sur certains de ses ee livres. Astrid Lindgren, William Faulkner, Pippi Longstocking The Sound and The Fury 6 / 24
  • 7. Introduction Enjeux Les statistiques textuelles d’Amazon : br`ve explication e Les formules de lisibilit´ employ´es mesurent la longueur des mots et e e des phrases. ‘A word is considered “complex” if it has three or more syllables’ ⇒ Schwarzenegger est-il un mot si difficile ` comprendre ? a Certains chiffres correspondent normalement aux diff´rents niveaux du e syst`me scolaire am´ricain. e e Pour plus d’informations : Book Lies : Readability is Impossible to Measure A note on Amazon’s text readability stats (sur mon blog) 7 / 24
  • 8. Introduction Enjeux Interview de Sabine Ludwig : un autre point de vue ´ Ecrivain et traductrice vivant ` Berlin. a Elle est contre toute forme de simplification. Dans les ann´es 70, une tradition d’´criture a vu le jour, selon laquelle e e le contenu comme la forme doivent ˆtre ´pur´s et lisibles. e e e Ce sont les parents et les grand-parents qui d´cident de l’achat d’un e livre, ce dernier doit avant tout avoir l’air int´ressant. Or, tout ce qui e achet´ n’est pas lu, loin de l`. e a Il est important que les enfants comprennent l’atmosph`re d’un livre, e pas forc´ment tous les mots. e La lisibilit´ est ` rapprocher d’une mani`re de conduire le lecteur et e a e de donner un rythme au texte. 8 / 24
  • 9. Introduction Enjeux Un exemple lisible, et pourtant... – Heidi Da hingen seine Kleider drin und auf einem Gestell lagen ein paar Hemden, Str¨mpfe und T¨cher und auf einem anderen einige Teller und u u Tassen und Gl¨ser und auf dem obersten ein rundes Brot und ger¨uchertes a a Fleisch und K¨se, denn in dem Kasten war alles enthalten, was der a ¨ Alm-Ohi besaß und zu seinem Lebensunterhalt gebrauchte. Als nun dieser Punkt der H¨he erreicht war, nahm Peter seinen Sack ab o und legte ihn sorgf¨ltig in eine kleine Vertiefung des Bodens hinein, denn a der Wind kam manchmal in starken St¨ßen dahergefahren, und den kannte o Peter und wollte seine kostbare Habe nicht den Berg hinunterrollen sehen ; dann streckte er sich lang und breit auf den sonnigen Weideboden hin, denn er musste sich nun von der Anstrengung des Steigens erholen. Phrases tir´es de Heidis Lehr- und Wanderjahre, de Johanna Spyri (1880) e (Source : http://gutenberg.spiegel.de/buch/5611/1) 9 / 24
  • 10. ´ Etat de la recherche ´ Etat de la recherche – le choix des mots Complexit´ (lexicale, syntaxique ou linguistique) e Lisibilit´ (versant cognitif, formules) e Compr´hensibilit´ e e 10 / 24
  • 11. ´ Etat de la recherche Approche taliste ou ax´e sur la visualisation e Sujet largement r´pandu, en particulier concernant l’anglais : ateliers ` e a LREC et NAACL. Recherche en informatique, Recherche en TAL visualisation Approche centr´e sur des e Adaptation de techniques de techniques de rep´rage et des e visualisation courante ` cet objet a m´triques d’´valuation e e de recherche. (cf diapositive suivante). Exemple de D. Keim , D. Oelke et al. ` Constance. a Voir aussi Karmakar & Zhu. 11 / 24
  • 12. ´ Etat de la recherche ´ Etat de la recherche en TAL 1 corpus linguistics / armchair linguistics 2 Formules de lisibilit´ e 3 La tendance → intelligence artificielle, apprentissage artificiel 4 D’une part des cat´gories plus d´taill´es, d’autre part des processus e e e de d´tection plus complexes e 5 Complexit´ globale / locale e Over the last ten years, work on readability deployed sophisticated NLP techniques [...] to capture more complex linguistic features and used statistical machine learning to build readability assessment tools. [...] Yet, besides lexical and syntactic complexity features there are other important factors, such as the structure of the text, the definition of discourse topic, discourse cohesion and coherence and so on F. Dell’Orletta et al., ”READ–IT : Assessing Readability of Italian Texts with a View to Text Simplification”, in Proceedings of the 2nd Workshop on Speech and Language Processing for Assistive Technologies, Edinburgh, 2011, p. 74. 12 / 24
  • 13. Hypoth`ses de recherche e Une analyse de surface 1`re hypoth`se : un survol du texte en surface e e → L’analyse de surface donne des r´sultats satisfaisants. L’op´ration doit e e simuler un premier survol du texte. Avant tout une approche ` base de r`gles. a e Une perspective linguistique sur les ph´nom`nes (et non directement e e op´ratoire ou quantitative). e Utiliser plutˆt peu de ressources (surtout par manque de temps) o mˆme si des analyses plus complexes au niveau s´mantique et e e discursif pourraient apporter de meilleurs r´sultats. e 13 / 24
  • 14. Hypoth`ses de recherche e Le primat de l’annotation 2`me hypoth`se : le primat de l’annotation e e → D’abord annoter et ensuite classer. Annotation au format XML ` plusieurs niveaux, en essayant de se a conformer aux standards de la TEI. Permet une analyse multidimensionnelle, de mˆme que l’´tablissement e e de profils. Le marquage du texte peut ˆtre le support d’une visualisation. e 14 / 24
  • 15. Hypoth`ses de recherche e Transparence 3`me hypoth`se : la transparence des processus e e → D’une boˆ noire ` une boˆ transparente . ıte a ıte Corpus et outils doivent ˆtre rendus disponibles ` la fin. e a Reproductibilit´ existante mais limit´e dans le temps des r´sultats e e e (outils plus ou moins stabilis´s). e La (re)publication des corpus est un sujet ` part enti`re... a e Le travail sur des corpus transmissibles doit ˆtre privil´gi´. e e e Architecture modulaire des programmes de traitement : meilleure adaptation, plusieurs variantes possibles. Toutes les lignes de code pr´sentables seront publi´es sous une licence e e open-source. 15 / 24
  • 16. M´thode e Crit`res et instruments e Int´grer et associer diff´rents instruments e e Chaˆ de traitement ıne 1 D´coupage en tokens → scripts Perl e 2 Etiquetage morpho-syntaxique → TreeTagger/RFTagger 3 Analyse de surface → automates ` ´tats finis ae 4 Texte annot´ → base de donn´es SQLite e e 5 Mesures → scripts Perl 6 Export → base de donn´es SQLite et fichier XML e Outils ` l’´tude a e Reconnaissance d’entit´s nomm´es e e Chaˆ ınes lexicales et/ou r´seaux lexicaux, ontologies e Textom´trie (TXM, http://txm.sourceforge.net) e Statistiques (R) 16 / 24
  • 17. M´thode e Crit`res et instruments e Principaux crit`res de mesure e Morphologie et lexique longueur (en syllabes et caract`res), r´partition des e e mots diff´rents, comparaison avec des listes de mots e (fr´quence, n´ologismes) e e Syntaxe Propositions subordonn´es, rection et compl´mentation des e e verbes, composition des groupes nominaux, r´partition des e pronoms S´mantique Densit´ conceptuelle, noms propres, polys´mie e e e Discours et texte r´partition des connecteurs, segmentation th´matique, e e coh´sion et coh´rence, style e e 17 / 24
  • 18. M´thode e Corpus Corpus de travail → Un probl`me allemand : en raison d’une l´gislation abondante et e e restrictive concernant le droit d’auteur, rares sont les corpus librement disponibles. Corpus crawl´s e et paires comparables Geo et Geolino ´tude comparative e Die Zeit et Die Bild-Zeitung (´ventuellement) e comparaison possible des th`mes et des rubriques. e Discours politiques allemands (environ 3500) Pr´sidence, Chancellerie et Affaires ´trang`res e e e http ://purl.org/corpus/german-speeches HanisauLand : Centre f´d´ral d’´ducation civique e e e (600 d´finitions sous licence CC BY-NC-ND) e 18 / 24
  • 19. M´thode e Corpus D´monstration e Toute premi`re version d’un prototype... e Conversion du format de repr´sentation interne (SQLite) ` la e a visualisation (pages XHTML) ´ Elements ` afficher : noms de classes CSS, modifi´es ` la vol´e par a e a e Javascript Options pr´sent´es : r´glage du contraste + deux correctifs pour l’instant. e e e ⇒ Apport de la visualisation pour l’analyse des ph´nom`nes e e exemple des mots-cl´s. e 19 / 24
  • 20. M´thode e Corpus Am´liorations envisag´es e e 1 Info-bulles 2 Zoom avant et arri`re sur le texte e 3 Plus de crit`res s´lectionnables, profils e e 20 / 24
  • 21. M´thode e Corpus Profils Enfants (limites d’ˆge ?) a Apprenants d’une langue ´trang`re e e Adultes, langue maternelle (Formation, CSP ?) Troisi`me, ou plutˆt quatri`me ˆge e o e a 21 / 24
  • 22. M´thode e Corpus Validation → Une ´tude sur un panel (pr´vue fin 2012) e e Questionnaires et marquage de passages (en ligne) Renseignements sur les participants ´ Etablir et tester la validit´ des profils e 22 / 24
  • 23. Conclusion Conclusion Probl`mes ` r´soudre e a e La compr´hensibilit´, pour quoi et pour qui ? e e Combien d’indicateurs sont n´cessaires ? e Comment les pond´rer ? e Quel(s) public(s) prendre en compte ? Comment repr´senter clairement les r´sultats ? e e 23 / 24
  • 24. Conclusion Informations Contact : adrien.barbaresi@ens-lyon.fr Blog : http://perso.ens-lyon.fr/adrien.barbaresi/blog/ Twitter : adbarbaresi Association de doctorants de l’ENS Lyon (ENth`Se) e Ressources pour les jeunes chercheurs http://enthese.ens-lyon.fr Document sous licence CC BY-SA 24 / 24