SlideShare a Scribd company logo
1 of 65
Download to read offline
Colloque Cooccurrence 2012
                     09/02/2012 - Besançon




Longueur de branches et arbres de mots

  Philippe Gambette, Nuria Gala, Alexis Nasr, Alain Guénoche
         LIGM                        LIF              IML
   Université Paris-Est   Université Aix-Marseille   CNRS
    Marne-la-Vallée
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Analyses arborées

  Rapprochement des mots d'un texte selon leur degré de
  cooccurrence dans le texte
  Constellation du mot “nuit” dans la base EXEMPLEM
  (22 romans de 11 auteurs, lemmatisés)            TEMPS 2




                                                              CHAMBRE À COUCHER




               L'ATMOSPHÈRE

                                                        TEMPS 1




                              Barthelémy & Luong, Statistique et Analyse des Données, 1986
Hyperbase                                                                  Brunet, JADT'08
Nuage arboré, une information double




       occurrences



                         cooccurrences

                           Discours inaugural de Barack Obama
construit avec

                        SplitsTree : Huson & Bryant, Bioinformatics, 2006
                                 TreeCloud : Gambette & Véronis, IFCS'09
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Interprétation réelle




 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation réelle




 Problème 1 :
 difficiles à lire


 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation réelle




 Problème 1 :                                       Problème 2 :
 difficiles à lire                                  peu fiables


 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation réelle




                                                    Optimisation
                                                    globale, pas
                                                    de garanties
                                                    locales de
                                                    qualité
 Problème 1 :                                       Problème 2 :
 difficiles à lire                                  peu fiables


 Les distances dans l'arbre entre deux mots reflètent au mieux
 le degré de cooccurrence entre ces deux mots
Interprétation pratique
                          arbre de distances
                          utilisé comme
                          classification
Interprétation pratique
                                          arbre de distances
                                          utilisé comme
                                          classification




 Les mots d'un même sous-arbre bien séparé du reste de l'arbre
 constituent une classe de mots
Interprétation pratique
                                          arbre de distances
                                          utilisé comme
                                          classification




 Les mots d'un même sous-arbre bien séparé du reste de l'arbre
 constituent une classe de mots
Interprétation pratique
                                          arbre de distances
                                          utilisé comme
                                          classification




                                          Problème : toujours
                                          peu lisible (longueur
                                          des arêtes externes)
                                          et peu fiable
 Les mots d'un même sous-arbre bien séparé du reste de l'arbre
 constituent une classe de mots
Interprétation pratique
   Astuce de visualisation pour améliorer la lisibilité :
   longueur unitaire des arêtes




Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre
de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)
                                                                        Amstutz & Gambette, JADT'10
Interprétation pratique
   Astuce de visualisation pour améliorer la lisibilité :
   longueur unitaire des arêtes, MAIS...
                        encore moins fiable !




                                     retour au texte
                                       nécessaire,
                                      fausses pistes
Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre
de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin)
                                                                        Amstutz & Gambette, JADT'10
Interprétation pratique

 Problème :

 Comment calculer les longueurs des arêtes de l'arbre pour une
 interprétation fiable des classes ?


 Arête longue = classe de mots significative (proches les uns des
 autres, bien séparés du reste)

 Arête courte = classe de mots peu significative
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence


 Formule du ratio des bons triplets (“triples”) :

 Si mot1 et mot2 d'un côté de l'arête, mot3 de l'autre côté,
 “bon triplet” si
 distance(mot1,mot2) <
 min(distance(mot1,mot3),                  mot1
 distance(mot2,mot3))
                                                                            mot3

 ratio espéré proche de 1
                                           mot2
                                                         Guénoche & Garreta, IFCS'02
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence


 Formule du ratio des distances moyennes (“distanceRatio”) :

 moyenne(distances inter-classes)
 moyenne(distances intra-classes)

 ratio espéré supérieur à 1




                                                         Guénoche & Garreta, IFCS'02
Formules de longueurs d'arêtes

 Post-calcul des longueurs d'arêtes après la construction de l'arbre,
 pour que :

 arêtes les plus longues ↔ classes de mots les plus significatives
                         ↔ classes de mots bien séparées
                            d'après la distance de cooccurrence


 Formule du ratio des bons quadruplets (“quartets”) :

 Si mot1 et mot2 d'un côté de l'arête, mot3 et mot4 de l'autre côté,
 “bon quadruplet” si                                                 mot4
 distance(mot1,mot2) +
 distance(mot2,mot3) <                    mot1
 min(distance(mot1,mot3) +
 distance(mot2,mot4) +,                                                     mot3
 distance(mot1,mot4) +
 distance(mot2,mot3))
                                          mot2
 ratio espéré proche de 1                                Guénoche & Garreta, IFCS'02
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Protocole d'évaluation

 Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :

 Vérification que les classes de mots les mieux séparées
 (d'après ces longueurs) sont significatives
Protocole d'évaluation

 Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :



 Vérification que les classes de mots        Partition obtenue en découpant les
 les mieux séparées (d'après ces             arêtes les plus longues comparée
 longueurs) sont significatives              avec une partition de référence
Protocole d'évaluation

 Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis :



 Vérification que les classes de mots        Partition obtenue en découpant les
 les mieux séparées (d'après ces             arêtes les plus longues comparée
 longueurs) sont significatives              avec une partition de référence

                                                             quelles
                                                            données ?
Protocole d'évaluation
  Base de données Polymots
  Base lexicale de familles morpho-phonologiques
  20 000 mots, 2000 familles




http://polymots.lif.univ-mrs.fr                    Gala & Rey, TALN'08
Protocole d'évaluation
 Base de données Polymots
 Base lexicale de familles morpho-phonologiques
 20 000 mots, 2000 familles

 + partitions sémantiques des familles de 20 mots
     (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune,
     meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val).




                                               Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 Base de données Polymots
 Base lexicale de familles morpho-phonologiques
 20 000 mots, 2000 familles

 + partitions sémantiques des familles de 20 mots
     (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune,
     meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val).


 Exemple pour la famille de art :
 { {artifice, artificiel, artificiellement, artificier},
  {artillerie, artilleur},
  {artisan, artisanal, artisanalement, artisanat},
  {artiste, artistique, artistiquement, art} }




                                                      Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 Idée :
 • Construire une représentation arborée des mots de la famille
 • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
 • La partition obtenue est-elle proche de la partition “manuelle” ?




                                              Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 Idée :
 • Construire une représentation arborée des mots de la famille
 • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
 • La partition obtenue est-elle proche de la partition “manuelle” ?


 Distance utilisée pour le calcul de la représentation arborée ?
 Distance composite entre :
 • nombre d'affixes communs
 • degré de cooccurrence dans




                                               Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P0 = {{artisan, artisanat,
                                                                   artisanal, artisanalement,
                                                                   artiste, artistique,
                                                                   artistiquement, artificier,
                                                                   artificiel, artifice,
                                                                   artificiellement, artillerie,
                                                                   artilleur, art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P1 = {{artisan, artisanat,
                                                                   artisanal, artisanalement,
                                                                   artiste, artistique,
                                                                   artistiquement, artificier,
                                                                   artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur, art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P2 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement, artificier,
                           2                                       artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur, art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P3 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement, artificier,
                           2                                       artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P4 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                           2                                       {artificier, artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
                                  4
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P5 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                         5 2                                       {artificier, artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
                                  4
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P6 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice,
                                                                   artificiellement},
                     1                                             {artillerie, artilleur},
                                  4
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice},
                                                                   {artificiellement},
                     1                                             {artillerie, artilleur},
                                  4     7
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice},
                                                                   {artificiellement},
                     1                                             {artillerie, artilleur},
                                  4     7
             3                                                     {art}}




Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                   6                               artistiquement},
                         5 2                                       {artificier, artificiel, artifice},
                                                                   {artificiellement},
                     1                                             {artillerie, artilleur},
                                  4     7
             3                                                     {art}}

                                                                   Comparer les partitions !
                                                                   (indice de Rand, Rand corrigé)

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                             Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                                                                   {artificier, artificiel, artifice},
                                                                   {artificiellement},
                                                                   {artillerie, artilleur},
                                                                   {art}}

                                                                   Comparer les partitions !
                                                                   (indice de Rand, Rand corrigé)

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                            Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P7 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                                                                   {artificier, artificiel, artifice},
                                                                   {artificiellement},
                                                                   {artillerie, artilleur},
                                                                   {art}}

                                                                   rand(Pm,P7) = 0.934
                                                                   aRand(Pm,P7) = 0.774

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                            Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
   Idée :
   • Construire une représentation arborée des mots de la famille
   • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk
   • La partition obtenue est-elle proche de la partition “manuelle” ?


                                                                   Partition automatique :
                                                                   P4 = {{artisan, artisanat,
                                                                   artisanal, artisanalement},
                                                                   {artiste, artistique,
                                                                   artistiquement},
                                                                   {artificier, artificiel, artifice,
                                                                   artificiellement},
                                                                   {artillerie, artilleur},
                                                                   {art}}

                                                                   rand(Pm,P4) = 0.967
                                                                   aRand(Pm,P4) = 0.894

Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur},
{artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}}
                                                            Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
Protocole d'évaluation
 ensemble de mots                cooccurrence dans le TLFI
                                 + affixes communs
                      matrice de distances                      méthodes NJ, UPGMA
                                                             arbre



                            formule 1     formule 2    formule 3
                         triples        length      quartets                 réévaluation des
                                         Ratio                             longueurs d'arêtes

                            arbre 1           arbre 2        arbre 3
                                                                         découpage de l'arbre
                                                                         par longueur d'arête
                                                                                 décroissante
 partition manuelle       partition 1        partition 2   partition 3
                                                                           comparaison de la
                                                                           meilleure partition
                                                                           parmi P0, P1, P2...
                            score 1           score 2        score 3
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Scores de chaque formule
                                                            triples
 1,2
                                                            lengthRatio
                                                            computedLength
   1
                                                            agreementPairs
                                                            quartets
 0,8

 0,6

 0,4

 0,2

   0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne
        Score Rand de la meilleure partition trouvée automatiquement

  1
                              triples
 0,9                          lengthRatio
 0,8                          computedLength
 0,7                          agreementPairs
                              quartets
 0,6
 0,5
 0,4
 0,3
 0,2
 0,1
  0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne

        Score Rand corrigé de la meilleure partition trouvée automatiquement
Scores de chaque formule
                                                            triples
 1,2
                                                            lengthRatio
                                                            computedLength
   1
                                                            agreementPairs
                                                            quartets
 0,8

 0,6

 0,4

 0,2

   0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne
        Score Rand de la meilleure partition trouvée automatiquement

  1
                              triples
                                                             meilleures performances
 0,9                          lengthRatio                    par triples et lengthRatio
 0,8                          computedLength
 0,7                          agreementPairs
                              quartets
 0,6
 0,5
 0,4
 0,3
 0,2
 0,1
  0
       arbre   art   boule carte corde dent    dict   fil    fus   lune meuble mode onde paille penser pot presse ten   terre   val moyenne

        Score Rand corrigé de la meilleure partition trouvée automatiquement
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?

       1
triples
     0,9

    0,8

    0,7

    0,6

    0,5

    0,4

    0,3

    0,2

    0,1

      0
           0      0,5          1           1,5          2          2,5          3
                                                                           computedLength

   Longueur selon la formule triples en fonction de la longueur originale de l'arête
   pour l'arbre de la famille de art
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?

       1
triples
     0,9

    0,8

    0,7

    0,6

    0,5

    0,4

    0,3

    0,2                   arêtes externes (trop longues)
    0,1

      0
           0      0,5          1           1,5          2          2,5          3
                                                                           computedLength

   Longueur selon la formule triples en fonction de la longueur originale de l'arête
   pour l'arbre de la famille de art
Scores de chaque formule
 Les formules de longueur d'arête sont-elles cohérentes ?

       1
triples        classes de mots les plus fiables
     0,9

    0,8

    0,7

    0,6

    0,5

    0,4        classes de
    0,3
               mots les
               moins fiables    arêtes externes (trop longues)
    0,2

    0,1

      0
           0            0,5          1            1,5     2        2,5          3
                                                                           computedLength

   Longueur selon la formule triples en fonction de la longueur originale de l'arête
   pour l'arbre de la famille de art
Scores de chaque formule
     Les formules de longueur d'arête sont-elles cohérentes ?

       1,35         coefficient de corrélation :
lengthRatio                    0.865
        1,3


       1,25


        1,2


       1,15


        1,1


       1,05


          1


       0,95


        0,9
              0,3         0,4        0,5           0,6   0,7         0,8          0,9
                                                                                triples

   Longueur selon la formule lengthRatio en fonction de celle selon la formule triples
   pour l'arbre de la famille de art
Scores de chaque formule
     Les formules de longueur d'arête sont-elles cohérentes ?

       1,35         coefficient de corrélation :
lengthRatio
        1,3
                               0.865                     arêtes internes
       1,25                    arêtes internes
                         généralement plus longues :
        1,2
                          bonne lisibilité de l'arbre
       1,15


        1,1


       1,05


          1

                     arêtes externes
       0,95


        0,9
              0,3         0,4        0,5           0,6     0,7       0,8          0,9
                                                                                triples

   Longueur selon la formule lengthRatio en fonction de celle selon la formule triples
   pour l'arbre de la famille de art
Scores de chaque formule
     Les formules de longueur d'arête sont-elles cohérentes ?

       1,35         coefficient de corrélation :
lengthRatio
        1,3
                               0.865                        arêtes internes
       1,25                    arêtes internes
                         généralement plus longues :
        1,2
                          bonne lisibilité de l'arbre
       1,15


        1,1


       1,05


          1                                              écart-type deux fois plus
                     arêtes externes                        grand pour triples
       0,95
                                                          0.166 au lieu de 0.084
        0,9
              0,3         0,4        0,5           0,6         0,7        0,8          0,9
                                                                                     triples

   Longueur selon la formule lengthRatio en fonction de celle selon la formule triples
   pour l'arbre de la famille de art
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Visualisations
arbre original computedLength
                                   arbre avec longueurs d'arêtes triples




                                arbre avec longueurs d'arêtes
                                lengthRatio
Visualisations
arbre original computedLength
                                         arbre avec longueurs d'arêtes triples




                      variance trop faible des
                      longueurs d'arêtes !
                                      arbre avec longueurs d'arêtes
                                      lengthRatio
Visualisations
arbre original computedLength
                                   arbre avec longueurs d'arêtes triples




                                arbre avec longueurs d'arêtes
                                lengthRatio
Plan

• Analyses et nuages arborés
• Interprétation visuelle
• Formules de longueurs d'arêtes
• Protocole d'évaluation
• Résultats
• Visualisations
• Perspectives
Perspectives

  • intégration des données de JeuxDeMots        dans le protocole, et plus
  généralement en textométrie
       • réseau de plus de 200 000 mots et 1 200 000 liens pondérés
       • cooccurrences dans la production spontanée de mots par rapport à
       un mot cible
       • cohérence avec les distances de cooccurrence calculées à partir
       d'un texte ?
                                                          Lafourcade, JADT'08

  • intégration de la visualisation en nuages arborés avec longueurs de
  branches post-calculées :
       • dans les outils de textométrie existants
       • par des interfaces d'import/export adaptées
       • pour faciliter le retour au texte
Questions ?




 Merci pour votre attention !




                                http://www.treecloud.org
Analyses arborées

  Rapprochement des mots d'un texte selon leur degré de
  cooccurrence dans le texte
  Constellation du mot “nuit” dans la base EXEMPLEM
  (22 romans de 11 auteurs, lemmatisés)            TEMPS 2




                                                              CHAMBRE À COUCHER




               L'ATMOSPHÈRE

                                                        TEMPS 1




                              Barthelémy & Luong, Statistique et Analyse des Données, 1986
Hyperbase                                                                  Brunet, JADT'08
Analyses arborées

  Rapprochement des mots d'un texte selon leur degré de
  cooccurrence dans le texte
  Constellation du mot “nuit” dans la base EXEMPLEM
  (22 romans de 11 auteurs, lemmatisés)            TEMPS 2




                                                              CHAMBRE À COUCHER




               L'ATMOSPHÈRE

                                                        TEMPS 1




                              Barthelémy & Luong, Statistique et Analyse des Données, 1986
Hyperbase                                                                  Brunet, JADT'08
Ultramétriques, centre d'un arbre




                                arbre “sans centre” (feuilles
                                à gauche plus éloignées de
                                ce point que celles à droit)
         “centre” de l'arbre

More Related Content

More from Philippe Gambette

Nuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloudNuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloudPhilippe Gambette
 
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloudNuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloudPhilippe Gambette
 
Practical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstructionPractical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstructionPhilippe Gambette
 
Méthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiquesMéthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiquesPhilippe Gambette
 
Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littéraireUtilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littérairePhilippe Gambette
 
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...Philippe Gambette
 
Reconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiquesReconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiquesPhilippe Gambette
 
The Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic NetworksThe Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic NetworksPhilippe Gambette
 
Visualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboréVisualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboréPhilippe Gambette
 
Estimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues CarambarEstimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues CarambarPhilippe Gambette
 
On restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphsOn restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphsPhilippe Gambette
 
Visualising a text with a tree cloud
Visualising a text with a tree cloudVisualising a text with a tree cloud
Visualising a text with a tree cloudPhilippe Gambette
 

More from Philippe Gambette (12)

Nuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloudNuages arborés et analyse textuelle de corpus politiques avec TreeCloud
Nuages arborés et analyse textuelle de corpus politiques avec TreeCloud
 
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloudNuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
 
Practical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstructionPractical use of combinatorial methods for phylogenetic network reconstruction
Practical use of combinatorial methods for phylogenetic network reconstruction
 
Méthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiquesMéthodes combinatoires de reconstruction de réseaux phylogénétiques
Méthodes combinatoires de reconstruction de réseaux phylogénétiques
 
Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littéraireUtilisation de la visualisation en nuage arboré pour l'analyse littéraire
Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
 
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
Codage des voisinages et parcours en largeur en temps O(n) des graphes d'inte...
 
Reconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiquesReconstruction combinatoire de réseaux phylogénétiques
Reconstruction combinatoire de réseaux phylogénétiques
 
The Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic NetworksThe Structure of Level-k Phylogenetic Networks
The Structure of Level-k Phylogenetic Networks
 
Visualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboréVisualiser un texte par un nuage arboré
Visualiser un texte par un nuage arboré
 
Estimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues CarambarEstimation du nombre de citations de papillotes et de blagues Carambar
Estimation du nombre de citations de papillotes et de blagues Carambar
 
On restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphsOn restrictions of balanced 2-interval graphs
On restrictions of balanced 2-interval graphs
 
Visualising a text with a tree cloud
Visualising a text with a tree cloudVisualising a text with a tree cloud
Visualising a text with a tree cloud
 

Recently uploaded

les_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkles_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkRefRama
 
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetJeanYvesMoine
 
Télécommunication et transport .pdfcours
Télécommunication et transport .pdfcoursTélécommunication et transport .pdfcours
Télécommunication et transport .pdfcourshalima98ahlmohamed
 
Cours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiquesCours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiquesMohammedAmineHatoch
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfAmgdoulHatim
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...Nguyen Thanh Tu Collection
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxhamzagame
 
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKRAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKNassimaMdh
 
L'expression du but : fiche et exercices niveau C1 FLE
L'expression du but : fiche et exercices  niveau C1 FLEL'expression du but : fiche et exercices  niveau C1 FLE
L'expression du but : fiche et exercices niveau C1 FLElebaobabbleu
 
Neuvaine de la Pentecôte avec des textes de saint Jean Eudes
Neuvaine de la Pentecôte avec des textes de saint Jean EudesNeuvaine de la Pentecôte avec des textes de saint Jean Eudes
Neuvaine de la Pentecôte avec des textes de saint Jean EudesUnidad de Espiritualidad Eudista
 
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...Universidad Complutense de Madrid
 
python-Cours Officiel POO Python-m103.pdf
python-Cours Officiel POO Python-m103.pdfpython-Cours Officiel POO Python-m103.pdf
python-Cours Officiel POO Python-m103.pdftrendingv83
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxikospam0
 
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxIntégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxabdououanighd
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaireTxaruka
 

Recently uploaded (16)

les_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkles_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhk
 
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
 
Télécommunication et transport .pdfcours
Télécommunication et transport .pdfcoursTélécommunication et transport .pdfcours
Télécommunication et transport .pdfcours
 
Cours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiquesCours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiques
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptx
 
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKRAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
 
Echos libraries Burkina Faso newsletter 2024
Echos libraries Burkina Faso newsletter 2024Echos libraries Burkina Faso newsletter 2024
Echos libraries Burkina Faso newsletter 2024
 
L'expression du but : fiche et exercices niveau C1 FLE
L'expression du but : fiche et exercices  niveau C1 FLEL'expression du but : fiche et exercices  niveau C1 FLE
L'expression du but : fiche et exercices niveau C1 FLE
 
Neuvaine de la Pentecôte avec des textes de saint Jean Eudes
Neuvaine de la Pentecôte avec des textes de saint Jean EudesNeuvaine de la Pentecôte avec des textes de saint Jean Eudes
Neuvaine de la Pentecôte avec des textes de saint Jean Eudes
 
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
 
python-Cours Officiel POO Python-m103.pdf
python-Cours Officiel POO Python-m103.pdfpython-Cours Officiel POO Python-m103.pdf
python-Cours Officiel POO Python-m103.pdf
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
 
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxIntégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaire
 

Longueur de branches et arbres de mots

  • 1. Colloque Cooccurrence 2012 09/02/2012 - Besançon Longueur de branches et arbres de mots Philippe Gambette, Nuria Gala, Alexis Nasr, Alain Guénoche LIGM LIF IML Université Paris-Est Université Aix-Marseille CNRS Marne-la-Vallée
  • 2. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 3. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 4. Analyses arborées Rapprochement des mots d'un texte selon leur degré de cooccurrence dans le texte Constellation du mot “nuit” dans la base EXEMPLEM (22 romans de 11 auteurs, lemmatisés) TEMPS 2 CHAMBRE À COUCHER L'ATMOSPHÈRE TEMPS 1 Barthelémy & Luong, Statistique et Analyse des Données, 1986 Hyperbase Brunet, JADT'08
  • 5. Nuage arboré, une information double occurrences cooccurrences Discours inaugural de Barack Obama construit avec SplitsTree : Huson & Bryant, Bioinformatics, 2006 TreeCloud : Gambette & Véronis, IFCS'09
  • 6. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 7. Interprétation réelle Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 8. Interprétation réelle Problème 1 : difficiles à lire Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 9. Interprétation réelle Problème 1 : Problème 2 : difficiles à lire peu fiables Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 10. Interprétation réelle Optimisation globale, pas de garanties locales de qualité Problème 1 : Problème 2 : difficiles à lire peu fiables Les distances dans l'arbre entre deux mots reflètent au mieux le degré de cooccurrence entre ces deux mots
  • 11. Interprétation pratique arbre de distances utilisé comme classification
  • 12. Interprétation pratique arbre de distances utilisé comme classification Les mots d'un même sous-arbre bien séparé du reste de l'arbre constituent une classe de mots
  • 13. Interprétation pratique arbre de distances utilisé comme classification Les mots d'un même sous-arbre bien séparé du reste de l'arbre constituent une classe de mots
  • 14. Interprétation pratique arbre de distances utilisé comme classification Problème : toujours peu lisible (longueur des arêtes externes) et peu fiable Les mots d'un même sous-arbre bien séparé du reste de l'arbre constituent une classe de mots
  • 15. Interprétation pratique Astuce de visualisation pour améliorer la lisibilité : longueur unitaire des arêtes Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin) Amstutz & Gambette, JADT'10
  • 16. Interprétation pratique Astuce de visualisation pour améliorer la lisibilité : longueur unitaire des arêtes, MAIS... encore moins fiable ! retour au texte nécessaire, fausses pistes Nuages arborés globaux des 60 mots les plus fréquents dans Cinna et Othon (distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début, bleu à la fin) Amstutz & Gambette, JADT'10
  • 17. Interprétation pratique Problème : Comment calculer les longueurs des arêtes de l'arbre pour une interprétation fiable des classes ? Arête longue = classe de mots significative (proches les uns des autres, bien séparés du reste) Arête courte = classe de mots peu significative
  • 18. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 19. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence
  • 20. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence Formule du ratio des bons triplets (“triples”) : Si mot1 et mot2 d'un côté de l'arête, mot3 de l'autre côté, “bon triplet” si distance(mot1,mot2) < min(distance(mot1,mot3), mot1 distance(mot2,mot3)) mot3 ratio espéré proche de 1 mot2 Guénoche & Garreta, IFCS'02
  • 21. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence Formule du ratio des distances moyennes (“distanceRatio”) : moyenne(distances inter-classes) moyenne(distances intra-classes) ratio espéré supérieur à 1 Guénoche & Garreta, IFCS'02
  • 22. Formules de longueurs d'arêtes Post-calcul des longueurs d'arêtes après la construction de l'arbre, pour que : arêtes les plus longues ↔ classes de mots les plus significatives ↔ classes de mots bien séparées d'après la distance de cooccurrence Formule du ratio des bons quadruplets (“quartets”) : Si mot1 et mot2 d'un côté de l'arête, mot3 et mot4 de l'autre côté, “bon quadruplet” si mot4 distance(mot1,mot2) + distance(mot2,mot3) < mot1 min(distance(mot1,mot3) + distance(mot2,mot4) +, mot3 distance(mot1,mot4) + distance(mot2,mot3)) mot2 ratio espéré proche de 1 Guénoche & Garreta, IFCS'02
  • 23. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 24. Protocole d'évaluation Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis : Vérification que les classes de mots les mieux séparées (d'après ces longueurs) sont significatives
  • 25. Protocole d'évaluation Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis : Vérification que les classes de mots Partition obtenue en découpant les les mieux séparées (d'après ces arêtes les plus longues comparée longueurs) sont significatives avec une partition de référence
  • 26. Protocole d'évaluation Post-calcul des longueurs d'arêtes après la construction de l'arbre, puis : Vérification que les classes de mots Partition obtenue en découpant les les mieux séparées (d'après ces arêtes les plus longues comparée longueurs) sont significatives avec une partition de référence quelles données ?
  • 27. Protocole d'évaluation Base de données Polymots Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles http://polymots.lif.univ-mrs.fr Gala & Rey, TALN'08
  • 28. Protocole d'évaluation Base de données Polymots Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles + partitions sémantiques des familles de 20 mots (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune, meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val). Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 29. Protocole d'évaluation Base de données Polymots Base lexicale de familles morpho-phonologiques 20 000 mots, 2000 familles + partitions sémantiques des familles de 20 mots (arbre, art, boule, carte, corde, dent, dict, fil, fusée, lune, meuble, mode, onde, paille, penser, pot, presse, tenir, terre, val). Exemple pour la famille de art : { {artifice, artificiel, artificiellement, artificier}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art} } Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 30. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 31. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Distance utilisée pour le calcul de la représentation arborée ? Distance composite entre : • nombre d'affixes communs • degré de cooccurrence dans Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 32. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P0 = {{artisan, artisanat, artisanal, artisanalement, artiste, artistique, artistiquement, artificier, artificiel, artifice, artificiellement, artillerie, artilleur, art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 33. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P1 = {{artisan, artisanat, artisanal, artisanalement, artiste, artistique, artistiquement, artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur, art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 34. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P2 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement, artificier, 2 artificiel, artifice, artificiellement}, 1 {artillerie, artilleur, art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 35. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P3 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement, artificier, 2 artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 36. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P4 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, 2 {artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 4 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 37. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P5 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, 5 2 {artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 4 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 38. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P6 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice, artificiellement}, 1 {artillerie, artilleur}, 4 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 39. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice}, {artificiellement}, 1 {artillerie, artilleur}, 4 7 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 40. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice}, {artificiellement}, 1 {artillerie, artilleur}, 4 7 3 {art}} Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 41. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, 6 artistiquement}, 5 2 {artificier, artificiel, artifice}, {artificiellement}, 1 {artillerie, artilleur}, 4 7 3 {art}} Comparer les partitions ! (indice de Rand, Rand corrigé) Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 42. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, {artificier, artificiel, artifice}, {artificiellement}, {artillerie, artilleur}, {art}} Comparer les partitions ! (indice de Rand, Rand corrigé) Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 43. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P7 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, {artificier, artificiel, artifice}, {artificiellement}, {artillerie, artilleur}, {art}} rand(Pm,P7) = 0.934 aRand(Pm,P7) = 0.774 Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 44. Protocole d'évaluation Idée : • Construire une représentation arborée des mots de la famille • Découper les k arêtes les plus longues de l'arbre pour obtenir Pk • La partition obtenue est-elle proche de la partition “manuelle” ? Partition automatique : P4 = {{artisan, artisanat, artisanal, artisanalement}, {artiste, artistique, artistiquement}, {artificier, artificiel, artifice, artificiellement}, {artillerie, artilleur}, {art}} rand(Pm,P4) = 0.967 aRand(Pm,P4) = 0.894 Partition manuelle : Pm = {{artificier, artifice, artificiel, artificiellement}, {artillerie, artilleur}, {artisan, artisanal, artisanalement, artisanat}, {artiste, artistique, artistiquement, art}} Gala, Hathout, Nasr, Rey, Seppälä, TALN'11
  • 45. Protocole d'évaluation ensemble de mots cooccurrence dans le TLFI + affixes communs matrice de distances méthodes NJ, UPGMA arbre formule 1 formule 2 formule 3 triples length quartets réévaluation des Ratio longueurs d'arêtes arbre 1 arbre 2 arbre 3 découpage de l'arbre par longueur d'arête décroissante partition manuelle partition 1 partition 2 partition 3 comparaison de la meilleure partition parmi P0, P1, P2... score 1 score 2 score 3
  • 46. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 47. Scores de chaque formule triples 1,2 lengthRatio computedLength 1 agreementPairs quartets 0,8 0,6 0,4 0,2 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand de la meilleure partition trouvée automatiquement 1 triples 0,9 lengthRatio 0,8 computedLength 0,7 agreementPairs quartets 0,6 0,5 0,4 0,3 0,2 0,1 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand corrigé de la meilleure partition trouvée automatiquement
  • 48. Scores de chaque formule triples 1,2 lengthRatio computedLength 1 agreementPairs quartets 0,8 0,6 0,4 0,2 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand de la meilleure partition trouvée automatiquement 1 triples meilleures performances 0,9 lengthRatio par triples et lengthRatio 0,8 computedLength 0,7 agreementPairs quartets 0,6 0,5 0,4 0,3 0,2 0,1 0 arbre art boule carte corde dent dict fil fus lune meuble mode onde paille penser pot presse ten terre val moyenne Score Rand corrigé de la meilleure partition trouvée automatiquement
  • 49. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ?
  • 50. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1 triples 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,5 1 1,5 2 2,5 3 computedLength Longueur selon la formule triples en fonction de la longueur originale de l'arête pour l'arbre de la famille de art
  • 51. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1 triples 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 arêtes externes (trop longues) 0,1 0 0 0,5 1 1,5 2 2,5 3 computedLength Longueur selon la formule triples en fonction de la longueur originale de l'arête pour l'arbre de la famille de art
  • 52. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1 triples classes de mots les plus fiables 0,9 0,8 0,7 0,6 0,5 0,4 classes de 0,3 mots les moins fiables arêtes externes (trop longues) 0,2 0,1 0 0 0,5 1 1,5 2 2,5 3 computedLength Longueur selon la formule triples en fonction de la longueur originale de l'arête pour l'arbre de la famille de art
  • 53. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1,35 coefficient de corrélation : lengthRatio 0.865 1,3 1,25 1,2 1,15 1,1 1,05 1 0,95 0,9 0,3 0,4 0,5 0,6 0,7 0,8 0,9 triples Longueur selon la formule lengthRatio en fonction de celle selon la formule triples pour l'arbre de la famille de art
  • 54. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1,35 coefficient de corrélation : lengthRatio 1,3 0.865 arêtes internes 1,25 arêtes internes généralement plus longues : 1,2 bonne lisibilité de l'arbre 1,15 1,1 1,05 1 arêtes externes 0,95 0,9 0,3 0,4 0,5 0,6 0,7 0,8 0,9 triples Longueur selon la formule lengthRatio en fonction de celle selon la formule triples pour l'arbre de la famille de art
  • 55. Scores de chaque formule Les formules de longueur d'arête sont-elles cohérentes ? 1,35 coefficient de corrélation : lengthRatio 1,3 0.865 arêtes internes 1,25 arêtes internes généralement plus longues : 1,2 bonne lisibilité de l'arbre 1,15 1,1 1,05 1 écart-type deux fois plus arêtes externes grand pour triples 0,95 0.166 au lieu de 0.084 0,9 0,3 0,4 0,5 0,6 0,7 0,8 0,9 triples Longueur selon la formule lengthRatio en fonction de celle selon la formule triples pour l'arbre de la famille de art
  • 56. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 57. Visualisations arbre original computedLength arbre avec longueurs d'arêtes triples arbre avec longueurs d'arêtes lengthRatio
  • 58. Visualisations arbre original computedLength arbre avec longueurs d'arêtes triples variance trop faible des longueurs d'arêtes ! arbre avec longueurs d'arêtes lengthRatio
  • 59. Visualisations arbre original computedLength arbre avec longueurs d'arêtes triples arbre avec longueurs d'arêtes lengthRatio
  • 60. Plan • Analyses et nuages arborés • Interprétation visuelle • Formules de longueurs d'arêtes • Protocole d'évaluation • Résultats • Visualisations • Perspectives
  • 61. Perspectives • intégration des données de JeuxDeMots dans le protocole, et plus généralement en textométrie • réseau de plus de 200 000 mots et 1 200 000 liens pondérés • cooccurrences dans la production spontanée de mots par rapport à un mot cible • cohérence avec les distances de cooccurrence calculées à partir d'un texte ? Lafourcade, JADT'08 • intégration de la visualisation en nuages arborés avec longueurs de branches post-calculées : • dans les outils de textométrie existants • par des interfaces d'import/export adaptées • pour faciliter le retour au texte
  • 62. Questions ? Merci pour votre attention ! http://www.treecloud.org
  • 63. Analyses arborées Rapprochement des mots d'un texte selon leur degré de cooccurrence dans le texte Constellation du mot “nuit” dans la base EXEMPLEM (22 romans de 11 auteurs, lemmatisés) TEMPS 2 CHAMBRE À COUCHER L'ATMOSPHÈRE TEMPS 1 Barthelémy & Luong, Statistique et Analyse des Données, 1986 Hyperbase Brunet, JADT'08
  • 64. Analyses arborées Rapprochement des mots d'un texte selon leur degré de cooccurrence dans le texte Constellation du mot “nuit” dans la base EXEMPLEM (22 romans de 11 auteurs, lemmatisés) TEMPS 2 CHAMBRE À COUCHER L'ATMOSPHÈRE TEMPS 1 Barthelémy & Luong, Statistique et Analyse des Données, 1986 Hyperbase Brunet, JADT'08
  • 65. Ultramétriques, centre d'un arbre arbre “sans centre” (feuilles à gauche plus éloignées de ce point que celles à droit) “centre” de l'arbre