• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud
 

Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud

on

  • 948 views

24 mai 2013 - Séminaire "Réflexion sur les visualisations en sciences humaines, quels apports pour la textométrie ?" - CEDITEC (Université Paris-Est Créteil)

24 mai 2013 - Séminaire "Réflexion sur les visualisations en sciences humaines, quels apports pour la textométrie ?" - CEDITEC (Université Paris-Est Créteil)

Statistics

Views

Total Views
948
Views on SlideShare
494
Embed Views
454

Actions

Likes
1
Downloads
2
Comments
0

2 Embeds 454

http://textopol.u-pec.fr 453
https://insystem.websecure.ma 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud Nuages arborés et analyse textuelle - Présentation de l’outil TreeCloud Presentation Transcript

    • Journée d’étude - Visualisations en SHS et textométrie24/05/2013 – Créteil (CEDITEC)Nuages arborés et analyse textuellePrésentation de l’outil TreeCloudPhilippe GambetteLIGMUniversité Paris-EstMarne-la-Vallée
    • • Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arborés• Évaluation de qualité• PerspectivesPlan
    • Démo de TreeCloud
    • Démo de TreeCloud
    • Démo de TreeCloud
    • • Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arborés• Évaluation de qualité• PerspectivesPlan
    • Nuage arboré, une information doubleconstruit avecSplitsTree : Huson & Bryant, Bioinformatics, 2006TreeCloud : Gambette & Véronis, IFCS09occurrencescooccurrencesDiscours inaugural de Barack Obamahiérarchiedes motshiérarchie desconcepts
    • Intérêts de la visualisation arborée• Quantité d’information :• nombre de sacs de motsimbriqués linéaire(≠ réseaux, AFC)• Qualité d’information :• prise en compted’une information globalepour le rapprochementde mots dans l’arbre(≠ réseaux)• Lisibilité :• dessin normalisé de l’arbre par méthode radiale (≠ réseaux)• placement des étiquettes sans chevauchement (≠ AFC)
    • Intérêts de la visualisation arborée• Quantité d’information :• nombre de sacs de motsimbriqués linéaire(≠ réseaux, AFC)• Qualité d’information :• prise en compted’une information globalepour le rapprochementde mots dans l’arbre(≠ réseaux)• Lisibilité :• dessin normalisé de l’arbre par méthode radiale (≠ réseaux)• placement des étiquettes sans chevauchement (≠ AFC)
    • Intérêts de la visualisation arborée• Quantité d’information :• nombre de sacs de motsimbriqués linéaire(≠ réseaux, AFC)• Qualité d’information :• prise en compted’une information globalepour le rapprochementde mots dans l’arbre(≠ réseaux)• Lisibilité :• dessin normalisé de l’arbre par méthode radiale (≠ réseaux)• placement des étiquettes sans chevauchement (≠ AFC)
    • Limites de la visualisation arborée• Quantité d’information :• nombre de mots linéaireen la largeur du dessin(≠ AFC, réseaux : quadratique)• Qualité d’information :• artefacts de laméthode : pas d’arbre“parfait”• rapprochements “artificiels”• instabilité (≠ AFC)• Lisibilité :• placement des étiquettes compliqué• problème des longueurs de branches• attention aux mauvaises interprétations
    • Limites de la visualisation arborée• Quantité d’information :• nombre de mots linéaireen la largeur du dessin(≠ AFC, réseaux : quadratique)• Qualité d’information :• artefacts de laméthode : pas d’arbre“parfait”• rapprochements “artificiels”• instabilité (≠ AFC)• Lisibilité :• placement des étiquettes compliqué• problème des longueurs de branches• attention aux mauvaises interprétationsdπd
    • Limites de la visualisation arborée• Quantité d’information :• nombre de mots linéaireen la largeur du dessin(≠ AFC, réseaux : quadratique)• Qualité d’information :• artefacts de laméthode : pas d’arbre“parfait”• rapprochements “artificiels”• instabilité (≠ AFC)• Lisibilité :• placement des étiquettes compliqué• problème des longueurs de branches• attention aux mauvaises interprétations
    • Limites de la visualisation arborée• Quantité d’information :• nombre de mots linéaireen la largeur du dessin(≠ AFC, réseaux : quadratique)• Qualité d’information :• artefacts de laméthode : pas d’arbre“parfait”• rapprochements “artificiels”• instabilité (≠ AFC)• Lisibilité :• placement des étiquettes compliqué• problème des longueurs de branches• attention aux mauvaises interprétations
    • Limites de la visualisation arborée“effet étoile”,centre illisibleGambette, Gala, & Nasr,Longueur de branches et arbres de mots,Corpus 11:129-146, 2012.• Quantité d’information :• nombre de mots linéaireen la largeur du dessin(≠ AFC, réseaux : quadratique)• Qualité d’information :• artefacts de laméthode : pas d’arbre“parfait”• rapprochements “artificiels”• instabilité (≠ AFC)• Lisibilité :• placement des étiquettes compliqué• problème des longueurs de branches• attention aux mauvaises interprétations
    • Interprétation réellePrincipe de construction de l’arbre :Les distances dans larbre entre deux mots reflètent au mieuxle degré de cooccurrence entre ces deux mots
    • Interprétation réelleLes distances dans larbre entre deux mots reflètent au mieuxle degré de cooccurrence entre ces deux motsProblème 1 :difficiles à lire
    • Interprétation réelleLes distances dans larbre entre deux mots reflètent au mieuxle degré de cooccurrence entre ces deux motsProblème 1 :difficiles à lireProblème 2 :peu fiables
    • Interprétation réelleLes distances dans larbre entre deux mots reflètent au mieuxle degré de cooccurrence entre ces deux motsProblème 1 :difficiles à lireProblème 2 :peu fiablesOptimisationglobale, pasde garantieslocales dequalité
    • Interprétation pratiquearbre de distancesutilisé commeclassification
    • Interprétation pratiqueLes mots dun même sous-arbre bien séparé du reste de larbreconstituent une classe de motsarbre de distancesutilisé commeclassification
    • Interprétation pratiqueLes mots dun même sous-arbre bien séparé du reste de larbreconstituent une classe de motsarbre de distancesutilisé commeclassification
    • Interprétation pratiqueLes mots dun même sous-arbre bien séparé du reste de larbreconstituent une classe de motsProblème : toujourspeu lisible (longueurdes arêtes externes)et peu fiablearbre de distancesutilisé commeclassification
    • • Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arborés• Évaluation de qualité• PerspectivesPlan
    • Processus de constructionSuppression des mots videsSélection des motsRecherche des cooccurrencesImport/exportCalcul des cooccurrencesConstruction de larbreTailles des motsCouleurs des motsDessin du nuage arboréTexteConcordance dun mot, lemmatisationou remplacements divers...
    • Processus de constructionSuppression des mots videsSélection des motsRecherche des cooccurrencesProposé dans TreeCloudantidico anglais, françaisn mots les plus fréquents, motsapparaissant plus de n fois, ouliste personnaliséeImport/exportMots significatifs12 formules de cooccurrenceCalcul des cooccurrencesConstruction de larbre Appel transparent à SplitsTreeMéthodes UPGMA, NJTailles des motsCouleurs des motsDessin du nuage arboréExport à divers formats Appel à SplitsTree ou DendroscopeFréquences ou valeurs personnaliséesFréquences, chronologie, dispersion,ciblées sur la cooccurrence dunmot, ou valeurs personnaliséesTexteConcordance dun mot, lemmatisationou remplacements divers...Matrice CSVMots significatifsListe de motset occurrencesFenêtre de cooccurrence paramétréepar taille et pas de glissement, oucaractère séparateur
    • Calcul des scores de cooccurrenceCalcul de la matrice de distance entre motsfenêtreglissante Slargeur wPas deglissement smatrices de cooccurrenceO11, O12, O21, O22matrice de dissimilaritésémantiquechi squared, mutual information,liddel, dice, jaccard, gmean,hyperlex, minimum sensitivity,odds ratio, zscore, log likelihood,poisson-stirling...Evert, Statistics of words cooccurrences, thèse, 2005Gambette, User manual for TreeCloud, 2009TextePour 2mots uet vLa dissimilarité sémantique entre deux mots u et v dépenddu nombre de fenêtres S où ils apparaissent ensemble.
    • Calcul des distances de cooccurrenceLes formules statistiques fournissent un score de similarité.Comment obtenir des dissimilarités, dans lintervalle [0,1] ?dissimilarité = 1 – similarité normalisée sur [0,1]Normalisation des scores de similarité sur [0,1] :• normalisation linéaire pour les matrices positives• normalisation affines pour les matrices contenant des valeursnégatives, afin dobtenir des distances dans lintervalle [a,1](a=0.1)
    • Construction de larbrePlusieurs méthodes pour construire un arbre à partir dunematrice de distances (classification hiérarchique) :• Neighbor-JoiningSaitou & Nei, 1987• Variantes dAddtreeBarthelemy & Luong, 1987• Heuristique des quadrupletsCilibrasi & Vitanyi, 2007
    • Décoration de larbreTailles des mots :• calculées directement à partir des fréquences(avec un log!)• calculées à partir des rangs des fréquences(distribution exponentielle)• score de spécificité par rapport à un corpus de référence(TF-IDF, écart réduit...)
    • Dessin de larbreAlgorithme “equal angle” :• montant pour calculer langle de chaque arête,en partant des feuilles• descendant pour placer chaque arêteen partant dun sommet internePlacement automatique des étiquettes :→ heuristique pour éviter les chevauchementsQuestion des longueurs darêtes ?
    • Dessin de larbreAlgorithme “equal angle” :• montant pour calculer langle de chaque arête,en partant des feuilles• descendant pour placer chaque arêteen partant dun sommet internePlacement automatique des étiquettes :→ heuristique pour éviter les chevauchementsQuestion des longueurs darêtes ?
    • ImplémentationsLogiciel libre TreeCloud (Python/Delphi) + SplitsTree (Java)www.treecloud.org www.splitstree.org
    • ImplémentationsLogiciel libre TreeCloud (Python/Delphi) + SplitsTree (Java)
    • Interface webwww.treecloud.orgInterface basée sur le logiciellibre NuageArboré de Jean-Charles Bontemps, en C,CGI/Python, et JavaScript.http://sourceforge.net/projects/nuagearbor/
    • Interface webwww.treecloud.org
    • Temps dexécutionLimites sur la taille du corpus pour utiliser TreeCloud ?30 secondes pour la construction du nuage arboré de lensembledes discours de campagne de Barack Obama (>300 000 mots)
    • Interface webwww.treecloud.orgInterface basée sur le logiciellibre NuageArboré de Jean-Charles Bontemps, en C,CGI/Python, et JavaScript.http://sourceforge.net/projects/nuagearbor/
    • • Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arborés• Évaluation de qualité• PerspectivesPlan
    • Des couleurs pour guider la lecture• coloration selon les fréquences• coloration chronologique• coloration de la dispersion• coloration ciblée sur un mot• coloration grammaticale
    • Des couleurs pour guider la lecture• coloration selon les fréquences• coloration chronologique• coloration de la dispersion• coloration ciblée sur un mot• coloration grammaticaleNuage arboré des motsapparaissant 5 fois ou plusdans larticle dAmstutz &Gambette, JADT 2010,distance Liddell, fenêtre de20 mots, coloration Yahoo
    • rouge :début de larticlebleu :fin de larticleNuage arboré des motsapparaissant 5 fois ou plusdans larticle dAmstutz &Gambette, JADT 2010,distance Liddell, fenêtre de20 mots, colorationchronologiqueDes couleurs pour guider la lecture• coloration selon les fréquences• coloration chronologique• coloration de la dispersion• coloration ciblée sur un mot• coloration grammaticale
    • Nuage arboré des motsapparaissant 5 fois ou plusdans larticle dAmstutz &Gambette, JADT 2010,distance Liddell, fenêtre de20 mots, colorationdispersonrouge :peu dispersébleu :disperséDes couleurs pour guider la lecture• coloration selon les fréquences• coloration chronologique• coloration de la dispersion• coloration ciblée sur un mot• coloration grammaticale
    • rouge :cooccurrents de“cooccurrence”Nuage arboré des motsapparaissant 5 fois ou plusdans larticle dAmstutz &Gambette, JADT 2010,distance Liddell, fenêtre de20 mots, coloration cibléesur le mot “cooccurrence”Des couleurs pour guider la lecture• coloration selon les fréquences• coloration chronologique• coloration de la dispersion• coloration ciblée sur un mot• coloration grammaticale
    • nomsadjectifsverbesnoms propresNuage arboré des motsapparaissant 5 fois ou plus danslarticle dAmstutz & Gambette,JADT 2010, distance Liddell,fenêtre de 20 mots, colorationpersonnalisée à partir dunétiquetage TreeTaggerDes couleurs pour guider la lecture• coloration selon les fréquences• coloration chronologique• coloration de la dispersion• coloration ciblée sur un mot• coloration grammaticale
    • • Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisations des nuages arborés• Évaluation de qualité• PerspectivesPlan
    • Utilisations des nuages arborés• Résumé visuel des thématiques dun texte• Support de médiation et d’argumentation :• appui visuel d’une analyse subjective• clarification de rapports ou discours, lors de la rédaction• En analyse textuelle (réponses aux questions ouvertes, romans,théâtre, corpus médiatique, etc.) :• susciter, formaliser et étayer des hypothèses de travail• comparer des textes selon leur représentation arborée• hiérarchiser lutilisation dautres outils textométriques• représenter les résultats de lanalyse
    • Support de médiation et d’argumentationPrésenter les compétences des docteursCorpus : CV soumis à une rencontre docteurs-entreprises
    • Support de médiation et d’argumentationPrésenter les compétences des docteursCorpus : CV soumis à une rencontre docteurs-entreprisesGestion deprojetTravail d’équipeCompétencestechniquesspécialiséesInformatiqueLangues
    • Support de médiation et d’argumentationTransmettre les résultats d’une consultationCorpus : réponses à des questions ouvertes à des professionnels de la santé sur leparcours de santé des personnes âgées dans les Alpes de Haute-ProvencePoints forts de l’accueil dans le départementDifficile à lire pour un non-expertSupport cohérent d’accompagnement du discours P. Grenier-Tisserand etléquipe projet de la DT 04
    • Support de médiation et d’argumentationTransmettre les résultats d’une consultationCorpus : réponses à des questions ouvertes à des professionnels de la santé sur leparcours de santé des personnes âgées dans les Alpes de Haute-ProvencePoints faibles de l’accueil dans le départementModaux qui guident la lectureSupport cohérent d’accompagnement du discours P. Grenier-Tisserand etléquipe projet de la DT 04
    • Support de médiation et d’argumentationTransmettre les résultats d’une consultationCorpus : réponses à des questions ouvertes à des professionnels de la santé sur leparcours de santé des personnes âgées dans les Alpes de Haute-ProvencePoints faibles de l’accueil dans le départementModaux qui guident la lectureSupport cohérent d’accompagnement du discours P. Grenier-Tisserand etléquipe projet de la DT 04
    • Support de médiation et d’argumentationTransmettre les résultats d’une consultationCorpus : réponses à des questions ouvertes à des professionnels de la santé sur leparcours de santé des personnes âgées dans les Alpes de Haute-ProvenceSuggestions d’améliorationsVerbes qui guident la lectureSupport cohérent d’accompagnement du discours P. Grenier-Tisserand etléquipe projet de la DT 04
    • P. Grenier-Tisserand etléquipe projet de la DT 04Support de médiation et d’argumentationTransmettre les résultats d’une consultationCorpus : réponses à des questions ouvertes à des professionnels de la santé sur leparcours de santé des personnes âgées dans les Alpes de Haute-ProvenceSuggestions d’améliorationsVerbes qui guident la lectureSupport cohérent d’accompagnement du discours
    • Analyse littéraire : illustration sur CinnaNuages arborés globaux des 60 mots les plus fréquents dans Cinna de Corneille(distance Liddell, fenêtre de largeur 20), colorés chronologiquement (rouge au début,bleu à la fin)
    • Spécificités demploi de« Rome », « liberté » et« empire » chez les différentspersonnages de Cinna dansLexico3.Analyse littéraire : illustration sur Cinna
    • Analyse littéraire : illustration sur CinnaNuage arboré des 50 mots les plus fréquents des paroles dAuguste dans Cinna
    • Analyse littéraire : illustration sur CinnaNuage arboré des 50 mots les plus fréquents des paroles dAuguste dans Cinna
    • Analyse littéraire : illustration sur CinnaCarte des sections Lexico3 et contextes de « amis » dans les paroles dAuguste dans Cinna.1. Voilà, mes chers amis, ce qui me met en peine.2. Quoi ! mes plus chers amis ! quoi ! Cinna ! quoi ! Maxime !3. Reprenez le pouvoir que vous mavez commis, Si donnant des sujets il ôte les amis4. Soyons amis, Cinna, cest moi qui ten convie5. Il nous a trahis tous ; mais ce quil a commis Vous conserve innocents, et me rend mes amis.
    • Analyse littéraire : illustration sur OthonNuage arboré des 30 mots les plus fréquents de la pièce Othon, coloré à gauche parrapport aux cooccurrences avec « Othon », à droite par rapport à celles avec « Galba »
    • Analyse littéraire : illustration sur OthonNuage arboré des 30 mots les plus fréquents de la pièce Othon, coloré à gauche parrapport aux cooccurrences avec « Othon », à droite par rapport à celles avec « Galba »
    • Analyse littéraire : illustration sur OthonNuage arboré des 30 mots les plus fréquents de la pièce Othon, coloré à gauche parrapport aux cooccurrences avec « Othon », à droite par rapport à celles avec « Galba »
    • Analyse littéraire : comparaison de Cinna et OthonNuages arborés des mots spécifiques de Cinna et Othon, dimensionnés et colorés daprèsleur spécificité calculée dans Lexico3.Quels moyens au service de la cause politique ?
    • Analyse littéraire : comparaison de Cinna et OthonNuages arborés des mots spécifiques de Cinna et Othon, dimensionnés et colorés daprèsleur spécificité calculée dans Lexico3.Quels moyens au service de la cause politique ?
    • Analyse littéraire : comparaison de Cinna et OthonCinna OthonLieu du pouvoir et objet de laconfrontation entre les personnagesRome (« liberté ») Empire (« trône »)Souverain en place tyran EmpereurMembres du corps politique amis maîtres / seigneursMoyens au service de la cause politique gloire amour matrimonial (« amour », « hymen »,« choix »)Caractérisation de la pièce Pièce de FONDATION Pièce de SUCCESSION DYNASTIQUEmots spécifiques deCinna et Othon daprès Lexico3
    • Comparer les articles d’agences et articles de journalistesCorpus : 595 articles d’agences contre 1496 articles de journalistes de 2011 évoquantl’affaire du Mediator dans la presse française.Articles de journalistesIllustration sur le corpus Mediatorsantépubliqueen Franceaspects médicauxconséquencesjuridiques etlégislativesentrepriseServierrésumé de laffaireet de la procédurejuridique
    • Comparer les articles d’agences et articles de journalistesCorpus : 595 articles d’agences contre 1496 articles de journalistes de 2011 évoquantl’affaire du Mediator dans la presse française.Articles d’agencesIllustration sur le corpus Mediator
    • • Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arborés• Évaluation de qualité• PerspectivesPlan
    • Évaluation de qualité1. Qualité de la méthode de construction de l’arbre :→ l’arbre correspond-il aux données ?2. Qualité de l’arbre en vue de l’interprétation :→ Les classes lisibles dans l’arbre correspondent-elles auxdonnées ?3. Qualité du nuage arboré comme outil d’analyse :→ La visualisation facilite-t-elle la lecture et l’interprétation ?
    • Correspondance de l’arbre avec les donnéesDistances dans larbre = approximation des distances entre motsMesure objective de la qualité de larbre ?
    • Correspondance de l’arbre avec les donnéesDistances dans larbre = approximation des distances entre motsMesure objective de la qualité de larbre ?Variations du nuage de mots suite à laltération du texte?bootstrap pour évaluer :- stabilité du résultat- robustesse de la méthode
    • Correspondance de l’arbre avec les donnéesDistances dans larbre = approximation des distances entre motsMesure objective de la qualité de larbre ?Variations du nuage de mots suite à laltération du texte?bootstrap pour évaluer :- stabilité du résultat- robustesse de la méthodeMéthode directe ?arboricité pour mesurer à quel point la matrice de distancecorrespond à une distance darbreGuénoche & Garreta, 2001Guénoche & Darlu, 2009
    • Lisibilité des classes dans l’arbre• Rédaction, par les étudiantsde M1 de lUPEMLV, de 10textes respectant cettepartition des mots en 7classes• Calcul des classes selon lesdifférentes formules delongueurs darêtes, aprèsdécoupage des 6 arêtes lesplus longuesProtocole d’évaluation à partir d’un texte généré depuis le résultatattendu :
    • Lisibilité des classes dans l’arbre• Rédaction, par les étudiantsde M1 de lUPEMLV, de 10textes respectant cettepartition des mots en 7classes• Calcul des classes selon lesdifférentes formules delongueurs darêtes, aprèsdécoupage des 6 arêtes lesplus longuesscore Rand corrigé
    • • Nuages arborés, intérêts et limites• Construction des nuages arborés• Options de coloration• Utilisation des nuages arborés• Évaluation de qualité• PerspectivesPlan
    • Perspectives• intégration de la visualisation en nuages arborés avec longueurs debranches post-calculées :• avec des outils de prétraitement linguistique :→ traitement des expressions composées (Unitex)→ détection des entités nommées→ étiquetage morphosyntaxique pour coloration (TreeTagger)→ sélection de groupes syntaxiques dans les concordances (Unitex)• dans les outils de textométrie existants• par des interfaces dimport/export adaptées• pour faciliter le retour au texte• amélioration des méthodes de construction de larbre• transformée de Farris pour le calcul des distances• algorithme de Luong pour le calcul de larbre
    • RéférencesDisponibles sur TreeCloud.org :Philippe Gambette, Jean Véronis (2009)Visualising a Text with a Tree Cloud,IFCS09, Studies in Classification, Data Analysis, and Knowledge Organization 40,p. 561-570http://www.slideshare.net/PhilippeGambette/visualising-a-text-with-a-tree-cloudDelphine Amstutz & Philippe Gambette (2010)Utilisation de la visualisation en nuage arboré pour lanalyse littéraire,JADT10 (Proceedings of the 10th International Conference on statistical analysis oftextual data), Statistical Analysis of Textual Data, p. 227-238http://www.slideshare.net/PhilippeGambette/utilisation-de-la-visualisation-en-nuage-arbor-pour-lanalyse-littrairePhilippe Gambette, Nuria Gala & Alexis Nasr (2012)Longueur de branches et arbres de mots,Corpus 11:129-146http://www.slideshare.net/PhilippeGambette/longueur-de-branches-et-arbres-de-motsWilliam Martinez & Philippe Gambette (2012)Laffaire du Médiator au prisme de la textométrie,Colloque Médias / Santé Publique
    • Processus de constructionSuppression des mots videsSélection des motsRecherche des cooccurrencesProposé dans TreeCloudantidico anglais, françaisn mots les plus fréquents, motsapparaissant plus de n fois, ouliste personnaliséeImport/exportMots significatifs12 formules de cooccurrenceCalcul des cooccurrencesConstruction de larbre Appel transparent à SplitsTreeMéthodes UPGMA, NJTailles des motsCouleurs des motsDessin du nuage arboréExport à divers formats Appel à SplitsTree ou DendroscopeFréquences ou valeurs personnaliséesFréquences, chronologie, dispersion,ciblées sur la cooccurrence dunmot, ou valeurs personnaliséesTexteConcordance dun mot, lemmatisationou remplacements divers...Matrice CSVMots significatifsListe de motset occurrencesFenêtre de cooccurrence paramétréepar taille et pas de glissement, oucaractère séparateur
    • Implémentationswww.treecloud.org www.splitstree.org
    • Implémentationswww.treecloud.org www.splitstree.org
    • Implémentationswww.treecloud.org www.splitstree.org
    • Interprétation réellePrincipe de construction de l’arbre :Les distances dans larbre entre deux mots reflètent au mieuxle degré de cooccurrence entre ces deux mots
    • Interprétation réellePrincipe de construction de l’arbre :Les distances dans larbre entre deux mots reflètent au mieuxle degré de cooccurrence entre ces deux mots
    • Calcul des scores de cooccurrenceCalcul de la matrice de distance entre motsfenêtreglissante Slargeur wPas deglissement smatrices de cooccurrenceO11, O12, O21, O22matrice de dissimilaritésémantiquechi squared, mutual information,liddel, dice, jaccard, gmean,hyperlex, minimum sensitivity,odds ratio, zscore, log likelihood,poisson-stirling...Evert, Statistics of words cooccurrences, thèse, 2005Gambette, User manual for TreeCloud, 2009TextePour 2mots uet vLa dissimilarité sémantique entre deux mots u et v dépenddu nombre de fenêtres S où ils apparaissent ensemble.
    • RéférencesDisponibles sur TreeCloud.org :Philippe Gambette, Jean Véronis (2009)Visualising a Text with a Tree Cloud,IFCS09, Studies in Classification, Data Analysis, and Knowledge Organization 40,p. 561-570http://www.slideshare.net/PhilippeGambette/visualising-a-text-with-a-tree-cloudDelphine Amstutz & Philippe Gambette (2010)Utilisation de la visualisation en nuage arboré pour lanalyse littéraire,JADT10 (Proceedings of the 10th International Conference on statistical analysis oftextual data), Statistical Analysis of Textual Data, p. 227-238http://www.slideshare.net/PhilippeGambette/utilisation-de-la-visualisation-en-nuage-arbor-pour-lanalyse-littrairePhilippe Gambette, Nuria Gala & Alexis Nasr (2012)Longueur de branches et arbres de mots,Corpus 11:129-146http://www.slideshare.net/PhilippeGambette/longueur-de-branches-et-arbres-de-motsWilliam Martinez & Philippe Gambette (2012)Laffaire du Médiator au prisme de la textométrie,Colloque Médias / Santé Publique