Métriques pour l'évaluation de l'Annotation

1,390 views
1,257 views

Published on

L'annotation est une tâche cruciale pour le développement et l'évaluation de systèmes TAL. Entre notions de validité et de fiabilité de l'annotation, il est nécessaire de faire un choix conscient des métriques (Kappa, Pi, Alpha, etc.) à utiliser. Dans cette continuité, un focus est fait sur une approche unifiant mesure d'accord et alignement (Mathet and Widlöcher, 2011).
Pour tout commentaire, correction, amélioration : prénom.nom /dot/ irit.fr (Jean-Philippe Fauconnier)

Published in: Data & Analytics
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,390
On SlideShare
0
From Embeds
0
Number of Embeds
8
Actions
Shares
0
Downloads
18
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Métriques pour l'évaluation de l'Annotation

  1. 1. Métriques pour l’évaluation de l’Annotation Jean-Philippe Fauconnier Institut de Recherche en Informatique de Toulouse Équipe MELODI 25 novembre 2013 Jean-Philippe Fauconnier Métriques pour l’Annotation 1 / 71
  2. 2. Introduction 1. Annotation au sens Linguistique et TAL Annotation de corpus Annotation : une méta-donnée sur du texte (Pustejovsky et Stubbs, 2012) (...) it is not enough to simply provide a computer with a large amount of data and expect it to learn to speak—the data has to be prepared in such a way that the computer can more easily find patterns and inferences. This is usually done by adding relevant metadata to a dataset. Any metadata tag used to mark up elements of the dataset is called an annotation over the input. Corpus annoté : ensemble de textes annotés (Pustejovsky et Stubbs, 2012) Datasets of natural language are referred to as corpora, and a single set of data annotated with the same specification is called an annotated corpus. Jean-Philippe Fauconnier Métriques pour l’Annotation 2 / 71
  3. 3. Introduction 2. Pourquoi annoter ? (Rosset, 2013) • Évaluer un modèle théorique (Péry-Woodley, et al., 2009) • Développer/Évaluer un système TAL (Afantenos et al., 2010) • Observer des phénomènes (Pascual, 1995 ; Rebeyrolle, 2009) 3. Cadre pour l’annotation • Corpus Pré-annoté ou non • Annotateurs (≥2) Étudiants, chercheurs, experts, etc. • Guide d’annotation Description de la tâche et rédaction itérative • Schéma d’annotation Conventions pour représenter l’annotation • Outils MAE (Stubbs, 2011), Glozz (Widlöcher et Mathet, 2009 ; 2012), etc. Jean-Philippe Fauconnier Métriques pour l’Annotation 3 / 71
  4. 4. Introduction 4. Pourquoi bien annoter ? • Risque de silence pour les approche symboliques • Risque de bruit dans les tâches en ML • Faire des hypothèses et les éprouver empiriquement • Assurer la reproductibilité de ces expériences Constitution d’un corpus // méthodologie expérimentale (stat.) → Relation entre var. indépendantes et dépendantes → Diminuer les variables cachées (confounding factors) → Corpus et annotateurs "représentatifs" → Objectif : dégager des liens causalité Cependant • Mais en réalité, beaucoup de facteurs interviennent • Et peut-on réellement considérer un annotateur comme un processus aléatoire et indépendant ? D’où un réel besoin d’évaluer. Jean-Philippe Fauconnier Métriques pour l’Annotation 4 / 71
  5. 5. Introduction 5. Évaluer pour : - Qualité du corpus Qualité des annotations Estimateurs stat. pour un phénomène Produire un alignement consistant 6. Qu’est-ce qu’on évalue ? - Le corpus ? Les annotateurs ? Le guide d’annotation ? Le schéma d’annotation ? 7. Et comment ? - Tests d’hypothèse ? - Corrélation intra-classes ? - Coefficients d’accord ? Jean-Philippe Fauconnier Métriques pour l’Annotation 5 / 71
  6. 6. Introduction Validity vs. Reliability : Notions reprises de l’Analyse de Contenu (Krippendorf, 2004), où les chercheurs visent à diminuer les biais, et adaptées au TAL (Artstein et Peosio, 2008). 1. Validity : Vérifier la validité du schéma d’annotation. • Les catégories définies sont-elles correctes ? • Est-ce qu’il s’agit de la vérité ? • Validity ← Reliability 2. Reliability : Vérifier la fiabilité de la tâche d’annotation • Stability : Accord intra-annotateur • Reproductibility : Accord inter-annotateurs • Accuracy : Comparaison à un "gold standard" Jean-Philippe Fauconnier Métriques pour l’Annotation 6 / 71
  7. 7. Introduction Et après l’évaluation de la validité/fiabilité ? ⇒ Question de l’alignement Comment choisir l’annotation finale ? - Un annotateur expert ? - Un vote majoritaire ? - Discussion entre annotateurs ? → Dépendances entre annotateurs ? → Mise à mal de la situation expérimentale ? Dans les prochaines sections : - Section 1 : Retour sur les coefficients d’accord - Section 2 : Une approche unifiée pour l’accord et l’alignement - Section 3 : Corpus LARAt - Un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 7 / 71
  8. 8. 1 Coefficients pour l’accord Nécessité d’une mesure du hasard 2 annotateurs : s, π et κ Multiples-annotateurs : multi-π, multi-k Métriques pondérées : α, kw et αk Interprétation 2 Une approche holiste et unifiée 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 8 / 71
  9. 9. Coefficients pour l’accord Nécessité d’une mesure du hasard Les coefficients d’accord (Artstein & Peosio, 2008) - forment une famille de métriques - mesurent l’accord entre codeurs - sont contraints dans un intervalle [-1,1] accord = 1 accord parfait accord = 0 aucun accord accord = -1 désaccord parfait Pourquoi les coefficients d’accord ? Il existe d’autres métriques/tests. - Accord observé - Test d’hypothèse du χ2 - Coefficients de corrélation Jean-Philippe Fauconnier Métriques pour l’Annotation 9 / 71
  10. 10. Coefficients pour l’accord Nécessité d’une mesure du hasard : Accord observé Accord Observé Ao est la plus simple mesure pour l’accord (1) Dénombrer les items i où les codeurs c sont en accord (2) Accord = quand à un item i est assigné une même catégorie k (3) Diviser par le nombre N d’items pour obtenir un pourcentage. A2 isA instOf Synon Multi Total isA 20 5 25 10 15 25 instOf A1 Synon 15 10 25 Multi 5 20 25 Total 25 25 25 25 100 Ao = Jean-Philippe Fauconnier 1 N nk = k∈K 60 = 0, 60 100 Métriques pour l’Annotation 10 / 71
  11. 11. Coefficients pour l’accord Nécessité d’une mesure du hasard : Accord observé Accord Observé - Ao rentre dans le calcul de tous les coefficients - Cependant Ao seul n’est pas suffisant - Le facteur de "chance" est ignoré - → impossibilité de comparer les études Deux facteurs : Variation de ces deux facteurs d’une étude à l’autre. - Le nombre K de catégories (Scott, 1955) - Distribution des items i (Di Eugenio et Glass, 2004) Jean-Philippe Fauconnier Métriques pour l’Annotation 11 / 71
  12. 12. Coefficients pour l’accord Nécessité d’une mesure du hasard : Accord observé (Scott, 1955) "[percentage agreement] is biased in favor of dimensions with a small number of categories." k1 k2 Total k1 1/4 1/2 k2 1/4 1/2 k1 k2 k3 Total k1 1/9 1/3 k2 1/9 1/3 k3 1/9 1/3 K =2 Total 1/2 1/2 1 Jean-Philippe Fauconnier Par "chance" : 1/4 des i dans chaque cellule Ao = 1/2 Total 1/3 1/3 1/3 1 K =3 Par "chance" : 1/9 des i dans chaque cellule Ao = 1/3 Métriques pour l’Annotation 12 / 71
  13. 13. Coefficients pour l’accord Nécessité d’une mesure du hasard : Accord observé (Arstein & Peosio, 2008) "(...) we expect a higher percentage agreement when one category is much more common than the other." Supposons la distribution suivante : - 95 % des i d’un domaine sont k1 - 5 % des i d’un domaine sont k2 k1 k2 Total k1 0,95 0,95 k2 0,05 0,05 Jean-Philippe Fauconnier Total 0,95 0,05 1 • Par "chance" : (0, 95)2 des i classés en k1 et (0, 05)2 classés en k2 . • Par "chance" : Ao = (0, 95)2 + (0, 05)2 = 90,5 % Métriques pour l’Annotation 13 / 71
  14. 14. Coefficients pour l’accord Nécessité d’une mesure du hasard : Test du Chi-2 Un test statistique pour l’accord ? - Tests d’hypothèses évaluent une hypothèse statistiquement - Ces tests produisent une p-value qui permet de rejeter ou accepter une hypothèse selon un risque alpha (souvent à 0,05) Test du Chi-2 - Le χ2 teste l’indépendance entre deux V.A X et Y - Sous H0 : X et Y sont indépendants - Sous H1 : X et Y ont une "relation" - Comparaison des distributions de X et Y pour choisir l’hypothèse - Cependant, (Cohen, 1960) montre que le χ2 mesure l’association et non l’accord. Jean-Philippe Fauconnier Métriques pour l’Annotation 14 / 71
  15. 15. Coefficients pour l’accord Nécessité d’une mesure du hasard : Test du Chi-2 Test du χ2 de Pearson isA instOf Synon Multi Total isA 20 instOf Synon 10 15 15 10 25 25 isA isA instOf Synon Multi Total 5 25 instOf Synon 10 15 15 10 25 25 Multi 5 25 25 Jean-Philippe Fauconnier 20 25 Multi 25 25 Total 25 25 25 25 100 Total 25 25 25 25 100 Ao = 0,60 X 2 = 140 p-value < 0,01 → Accord Ao = 0,20 X 2 = 204 p-value < 0,01 → Désaccord Métriques pour l’Annotation 15 / 71
  16. 16. Coefficients pour l’accord Nécessité d’une mesure du hasard : Coefficients de corrélation Coefficients de corrélation r et rs - mesurent la corrélation entre une V.A X et Y - prennent une valeur entre [-1,1] - Cependant, mesurent l’existence d’une relation et non l’accord Supposons l’exemple suivant : - Deux expériences avec chacune 2 codeurs et 5 items - À chaque item est attribué une valeur entre [1,5] (rating) Item a b c d e Jean-Philippe Fauconnier Exp1 A1 A2 1 1 2 2 3 3 4 4 5 5 Exp2 A1 A2 1 2 2 4 3 6 4 8 5 10 Métriques pour l’Annotation 16 / 71
  17. 17. Coefficients pour l’accord Nécessité d’une mesure du hasard : Coefficients de corrélation Existence d’une relation affine r = Ao = 1 → Accord Jean-Philippe Fauconnier σx,y =1 σx σy Ao = -1 → Désaccord Métriques pour l’Annotation 17 / 71
  18. 18. Coefficients pour l’accord Nécessité d’une mesure du hasard Nécessiter d’une correction par la chance - Ao ne suffit pas - χ2 , r et rs ne sont pas adaptés - il est nécessaire de prendre en compte la "chance" avec laquelle les annotateurs auraient pu tomber d’accord. Accord attendu - Ae une mesure pour estimer le "hasard" - Une formule qui corrige Ao - Mesure corrigée de ce que serait l’accord "réel" sous l’effet du hasard. - Si Ao élevé, mais que Ae l’est aussi 0 - Si Ao moyen, mais que Ae est bas, → 1 Ao − Ae 1 − Ae Jean-Philippe Fauconnier Métriques pour l’Annotation 18 / 71
  19. 19. 1 Coefficients pour l’accord Nécessité d’une mesure du hasard 2 annotateurs : s, π et κ Multiples-annotateurs : multi-π, multi-k Métriques pondérées : α, kw et αk Interprétation 2 Une approche holiste et unifiée 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 19 / 71
  20. 20. Coefficients pour l’accord 2 annotateurs : S, Pi et Kappa Comment estimer le hasard pour 2 annotateurs ? - L’estimation de Ae diffère dans les métriques : - S (Bennett et al., 1954) - π (Scott, 1955) - κ (Cohen, 1960) - Mais la formule reste identique : S, π, κ = Jean-Philippe Fauconnier Ao − Ae 1 − Ae Métriques pour l’Annotation 20 / 71
  21. 21. Coefficients pour l’accord 2 annotateurs : S, Pi et Kappa Comment calculer Ae ? Situation expérimentale avec des annotateurs indépendants Implique : • Indépendance entre deux événements (d’annotation) • Ainsi, si A et B, deux événements, sont indépendants : P(A ∩ B) = P(A).P(B) (*) L’hypothèse d’indépendance est très controversée (cf. John Uebersax) Ae : la somme des produits sur toutes les catégories k : AS , Aπ , Aκ = e e e P(kc1 ).P(kc2 ) k∈K Jean-Philippe Fauconnier Métriques pour l’Annotation 21 / 71
  22. 22. Coefficients pour l’accord 2 annotateurs : S, Pi et Kappa Comment calculer k∈K P(kc1 ).P(kc2 ) ? C’est dans l’estimation du hasard que S, π, κ diffèrent : - S = Distribution uniforme 1 Pas de distinction p(k) = k As = e 1 1 k∈K k . k - π = Une seule distribution ˆ Distinction des catégories p (k) = Aπ = e k∈K 1 = k.( k )2 = nk 2N ˆ ˆ P(k).P(k) = - κ = Distributions individuelles Distinction des catégories et des codeurs Aκ = e k∈K Jean-Philippe Fauconnier 1 k nk 2 k∈K ( 2N ) nc1 k N nc1 k nc2 k k∈K N . N ˆ p (k|ci ) = ˆ ˆ P(k|ci ).P(k|ci ) = Métriques pour l’Annotation 22 / 71
  23. 23. Coefficients pour l’accord 2 annotateurs : comparaison Comparaison des métriques Pour Ao fixé à 0,60 isA instOf Synon Multi Total isA instOf Synon Multi Total isA 20 Synon 10 15 5 25 instOf 15 10 25 25 isA 20 10 10 instOf 10 10 Synon 10 40 20 Multi 5 20 25 Multi 10 Jean-Philippe Fauconnier 20 20 20 Total 25 25 25 25 100 Total 40 20 20 20 100 S = 0,467 π = 0,467 κ = 0,467 S = 0,467 π = 0,444 κ = 0,444 Métriques pour l’Annotation 23 / 71
  24. 24. Coefficients pour l’accord 2 annotateurs : comparaison Comparaison des métriques Pour Ao fixé à 0,60 isA instOf Synon Multi Total isA 20 20 instOf 5 10 5 Synon 5 5 10 20 20 Multi 10 5 5 20 40 Total 40 20 20 20 100 S = 0,467 π = 0,460 κ = 0,474 "Paradoxe" du Kappa Le κ augmente lorsque les distributions des annotateurs divergent et, inversement, pénalise les distributions similaires. Jean-Philippe Fauconnier Métriques pour l’Annotation 24 / 71
  25. 25. 1 Coefficients pour l’accord Nécessité d’une mesure du hasard 2 annotateurs : s, π et κ Multiples-annotateurs : multi-π, multi-k Métriques pondérées : α, kw et αk Interprétation 2 Une approche holiste et unifiée 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 25 / 71
  26. 26. Coefficients pour l’accord Multiples annotateurs : multi-Pi et multi-kappa Multi-π et Multi-k - Métriques π et κ ont leur généralisation à de multiples codeurs - π (Scott, 1955) ⇒ k de Fleiss (Fleiss, 1971), appelé multi-π - κ (Cohen, 1960)⇒ k de (Davies et Fleiss, 1982), appelé multi-κ "Accident" terminologique En TAL : • Proposition d’un "kappa" (Carletta, 1996) • issu du K (Siegel et Castellan, 1988) • lui-même issu du κ de Fleiss (Fleiss, 1971) • Et le κ de Fleiss est une généralisation du π (Scott, 1955) Jean-Philippe Fauconnier Métriques pour l’Annotation 26 / 71
  27. 27. Coefficients pour l’accord Multiples annotateurs : multi-Pi et multi-kappa Principe - Utilisation de tables d’accord - Impossibilité d’utiliser des tables de contingence - Divergences : - Distribution seule : multi-π - Distributions individuelles : multi-κ Item i1 i2 . . iN Total isA 1 3 instOf 0 1 Synon 2 0 Multi 1 0 0 60 (0,4) 4 15 (0,1) 0 30 (0,2) 0 45 (0,3) Jean-Philippe Fauconnier Métriques pour l’Annotation 27 / 71
  28. 28. 1 Coefficients pour l’accord Nécessité d’une mesure du hasard 2 annotateurs : s, π et κ Multiples-annotateurs : multi-π, multi-k Métriques pondérées : α, kw et αk Interprétation 2 Une approche holiste et unifiée 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 28 / 71
  29. 29. Coefficients pour l’accord Coefficient cube Coefficient cube (Artstein et Peosio, 2008) - Classification des coefficients selon 3 axes Jean-Philippe Fauconnier Métriques pour l’Annotation 29 / 71
  30. 30. Coefficients pour l’accord Métriques pondérées Métriques pondérées - α (Krippendorf, 1980) - κw (Cohen, 1968) - αk (Artstein et Peosio, 2008) Principe • Utilisation d’une fonction de distance δ • Mesurer le désaccord Do De - Do De Do De Do De = 0 accord parfait = 1 aucun accord > 1 désaccord systématique • Que l’on soustrait à 1 pour la comparaison entre coefficients Do 1− De Jean-Philippe Fauconnier Métriques pour l’Annotation 30 / 71
  31. 31. Coefficients pour l’accord Métriques pondérées : fonction de distance Fonction de distance δ - Donner des coûts différents aux erreurs - Utilisation d’une matrice de distance entre les catégories - Permet de définir une distance pour plusieurs types de variables : nominale, ordinale, rating, ratio δki ,kj = (ki − kj )2 = 0 si ki = kj 0 < x ≤ 1 si ki = kj - Croissance quadratique pour pénaliser les écarts - La matrice de distance doit être symétrique isA instOf Synon Multi Jean-Philippe Fauconnier isA 0 0.5 1 1 instOf 0.5 0 1 1 Synon 1 1 0 1 Multi 1 1 1 0 Métriques pour l’Annotation 31 / 71
  32. 32. Coefficients pour l’accord Métriques pondérées : alpha de krippendorf α (Krippendorf, 1980) - Multiples codeurs et types de variables - Autorise les annotations manquantes - Reste significatif avec de petits échantillons (Krippendorf, 2004) - S’apparente au test ANOVA Test ANOVA (Analysis of Variance) - Le test ANOVA teste si deux V.A X et Y proviennent de la même population - Sous H0 : X et Y < même population - Sous H1 : X et Y ne proviennent pas de la même population - Comparaison des variances de X et Y pour choisir l’hypothèse - Dans l’α : - Faible variance 0 Accord - Variance limitée 1 Aucun accord - Variance élevée > 1 Désaccord Jean-Philippe Fauconnier Métriques pour l’Annotation 32 / 71
  33. 33. 1 Coefficients pour l’accord Nécessité d’une mesure du hasard 2 annotateurs : s, π et κ Multiples-annotateurs : multi-π, multi-k Métriques pondérées : α, kw et αk Interprétation 2 Une approche holiste et unifiée 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 33 / 71
  34. 34. Coefficients pour l’accord Interprétation des coefficients d’accord Échelle d’interprétation (Fort, 2011 ; Rosset, 2013) - (Landis & Koch, 1977) 0,00-0,20 0,21 - 0,40 mauvais médiocre 0,41 - 0,60 moyen - (Krippendorf, 1980) 0,00 - 0,67 0,67 - 0,80 incohérence aucune décision - (Green, 1997) 0,00 - 0,40 0,40 - 0,75 faible moyen Jean-Philippe Fauconnier 0,61 - 0,80 bon 0,81 - 1,00 excellent 0,81 - 1,00 cohérence 0,75 - 1,00 élevé Métriques pour l’Annotation 34 / 71
  35. 35. Coefficients pour l’accord Interprétation des coefficients d’accord : biais et prévalence Biais : le "paradoxe du k" - Le k paraît récompenser les distributions qui diffèrent - (Di Eugenio et Glass, 2004) : utiliser le κ en discours où les distributions diffèrent, π/α quand les distributions sont similaires. - (Artstein et Peosio, 2008) : bien qu’il y ait divergence pour un Ao fixé, dans la pratique Ao et Ae sont dépendants (car issus des mêmes données). isA instOf Synon Multi Total isA 20 20 instOf 5 10 5 Synon 5 5 10 20 20 Jean-Philippe Fauconnier Multi 10 5 5 20 40 Total 40 20 20 20 100 S = 0,467 π = 0,460 κ = 0,474 Métriques pour l’Annotation 35 / 71
  36. 36. Coefficients pour l’accord Interprétation des coefficients d’accord : biais et prévalence Prévalence : - La distribution des items tend à diminuer le coefficient. - (Artstein et Peosio, 2008) : les coefficients corrigés par une mesure de hasard sont sensibles à l’accord sur les catégories rares. isA Multi Total isA 0,90 0 0,90 Multi 0,05 0,05 0,10 Jean-Philippe Fauconnier Total 0,95 0,05 1 • Ak = 0,95 o • Ak = 0,86 e • k = 0,63 Métriques pour l’Annotation 36 / 71
  37. 37. Coefficients pour l’accord Interprétation des coefficients d’accord Quels coefficients pour quelle évaluation ? (Artstein et Peosio, 2008) 1. Validité du schéma d’annotation - Les coefficients à distributions individuelles k, kw et αk reflètent mieux le travail individuel des annotateurs. Les annotateurs ont-ils bien compris ? Le schéma reflète-t-il la réalité/vérité ? Le guide d’annotation est-il pertinent ? 2. Fiabilité de la tâche d’annotation - Les coefficients à simple distribution π, multi-π, α diminuent la variance et permettent la généralisation. La tâche est-elle reproductible ? L’annotation est-elle cohérente ? Les résultats tirés de ce corpus sont fiables ? Jean-Philippe Fauconnier Métriques pour l’Annotation 37 / 71
  38. 38. 1 Coefficients pour l’accord 2 Une approche holiste et unifiée Une approche holiste et unifiée Le désaccord comme créateur de désordre Alignement Alignement idéal et mesure d’accord 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 38 / 71
  39. 39. Une approche holiste et unifiée Problématique : Accord et Alignement Accord sur des unités non-prédéfinies - Les coef. fonctionnent pour les cas où les unités sont prédéfinies (e.g : PosTag, annotation syntaxique, etc.) - Comment estimer l’accord avec des unités qui "pavent" le texte ? (e.g : REN, chaînes anaphoriques, Discours, etc.) Jean-Philippe Fauconnier Métriques pour l’Annotation 39 / 71
  40. 40. Une approche holiste et unifiée Problématique : Accord et Alignement Accord sur des unités non-prédéfinies - F-Mesure : - Une annotation est considérée comme annotation de référence - Une moy. harmonique est effectuée entre le rappel et la précision - Moy. sur le corpus (micro-avg) ou sur chaque doc./cat. (macro-avg) - Pour codeurs>2 , on préférera l’exactitude Présent Absent precision = Présent TP FP TP TP + FP F (β) = (1 + β 2 ) TPci ,cj N.C c∈C (micro-avg) Absent FN TN recall = TP TP + FN precision.recall β 2 .precision + recall - Alternative : adaptation de α (voir Krippendorf, 2004) Jean-Philippe Fauconnier Métriques pour l’Annotation 40 / 71
  41. 41. Une approche holiste et unifiée Problématique : Accord et Alignement Accord sur des unités non-prédéfinies - Comment définir un TP ? À partir de quel écart est-on prêt à dire que 2 unités ayant une position légèrement différente (chez c1 , c2 et c3 ) désignent bien le même phénomène ? Problème de l’alignement - Le choix d’une métrique d’accord ne résout pas l’alignement : Comment choisir la position finale ? Comment choisir la catégorie finale ? Comment produire un alignement consistant ? Jean-Philippe Fauconnier Métriques pour l’Annotation 41 / 71
  42. 42. Une approche holiste et unifiée (Mathet, 2011) Une approche holiste et unifiée (Mathet et Widlöcher, 2011) - unifiée : définit l’accord et l’alignement en utilisant la position et la catégorisation des items - holiste : prend en compte tous les items pour l’alignement final Principes : - accord et alignement = tâches inter-dépendantes - Meilleur alignement = alignement qui minimise le désordre - Meilleur accord = valeur de désordre Jean-Philippe Fauconnier Métriques pour l’Annotation 42 / 71
  43. 43. 1 Coefficients pour l’accord 2 Une approche holiste et unifiée Une approche holiste et unifiée Le désaccord comme créateur de désordre Alignement Alignement idéal et mesure d’accord 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 43 / 71
  44. 44. Une approche holiste et unifiée Le désaccord comme créateur de désordre Désaccord = Désordre - Hypothèse : Pour c codeurs, même si position et catégorisation diffèrent, elles devraient en grande partie converger (dans le cas contraire, tâche = échec). - Idée : calculer le désordre pour estimer le désaccord - Accord parfait : les unités i ont les mêmes bornes et catégories - Désaccord : les unités i n’ont pas les mêmes bornes et catégories - Combien de transformations entre accord parfait et désaccord ? Transformations 1. déplacement de bornes de début et de fin 2. requalification de catégories 3. suppression d’unités Jean-Philippe Fauconnier Métriques pour l’Annotation 44 / 71
  45. 45. Une approche holiste et unifiée Le désaccord comme créateur de désordre Fonction de Dissimilarité d - La fonction de dissimilarité d s’apparente à la fonction δkrippendorf - Différence : elle s’applique directement aux items i (et non aux k) diu ,iv = 0 si iu = iv 0 < x si iu = iv - Différence : elle est appliquée à la position et la catégorisation • dpos mesure la distance dans le texte • dcat mesure la distance entre catégories Jean-Philippe Fauconnier Métriques pour l’Annotation 45 / 71
  46. 46. Une approche holiste et unifiée Le désaccord comme créateur de désordre Dissimilarité positionnelle - Soit start(i) et end (i) pour l’indice de début et de fin de l’item i dans le texte  2 |start(iu ) − start(iv )| + |end (iu ) − end (iu )|  dpos iu ,iv =  (end(iu )−start(iu ))+(start(iv )+end(iv )) 2 • Croissance quadratique pour pénaliser les écarts importants • |start(iu ) − start(iv )| + |end (iu ) − end (iu )| Somme des écarts absolus pour deux items • (end(iu )−start(iu ))+(end(iv )+start(iv )) 2 Moyenne des unités. Permet le passage à des échelles différentes. Jean-Philippe Fauconnier Métriques pour l’Annotation 46 / 71
  47. 47. Une approche holiste et unifiée Le désaccord comme créateur de désordre Dissimilarité catégorielle - Deux fonctions : - dcat : dissimilarité entre deux unités - distcat : différence entre les catégories dans la matrice symétrique - où dcat est : dcat iu ,iv = distcat (kiu , kiv ).∆∅ - où distcat retourne la valeur dans la matrice : isA instOf Synon Multi Jean-Philippe Fauconnier isA 0 0.5 1 1 instOf 0.5 0 1 1 Synon 1 1 0 1 Multi 1 1 1 0 Métriques pour l’Annotation 47 / 71
  48. 48. Une approche holiste et unifiée Le désaccord comme créateur de désordre Dissimilarité combinée - dcombi est une combinaison linéaire de dpos et dcat dcombi iu ,iv = a.dpos (iu , iv ) + b.dcat (iu , iv ) - où si a = 0, 5 et b = 0, 5, un poids égal est donné aux deux dissimilarités : dcombi iu ,iv Jean-Philippe Fauconnier = dpos (iu , iv ) + dcat (iu , iv ) 2 Métriques pour l’Annotation 48 / 71
  49. 49. 1 Coefficients pour l’accord 2 Une approche holiste et unifiée Une approche holiste et unifiée Le désaccord comme créateur de désordre Alignement Alignement idéal et mesure d’accord 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 49 / 71
  50. 50. Une approche holiste et unifiée Alignement Distinction entre alignement unitaire et alignement . - a = un alignement unitaire entre deux unités - ¯ = un ensemble d’alignements unitaires pour un jeu d’annotation a Alignement unitaire . - a, un n-uplet, avec n compris dans l’intervalle [1, C ] . - a contient, au plus, une unité de chaque annotateur Alignement c1 c2 1 ( i1 , i∅ ) 1 2 ( i1 , i1 ) ( ... , ... ) 1 2 ( i3 , i12 ) → alignement vide avec unité fictive i∅ → vrai alignement → "faux" alignement Nombre d’alignements unitaires générables : ( Jean-Philippe Fauconnier c∈C Nc ) − 1 Métriques pour l’Annotation 50 / 71
  51. 51. Une approche holiste et unifiée Alignement et Entropie Alignement et Entropie Entropie dans le sens de désordre (et non de (Shannon, 1948)) Alignement unitaire : - Idée : mesurer le désordre d’un alignement unitaire en utilisant une fonction de dissimilarité - On mesure l’"entropie" d’un alignement unitaire, pour une dx donnée, en faisant la moyenne de ses dissimilarités. . . e(a) = 1 n 2 dx (iu , iv ) . iu ,iv ∈a Intuition Au plus un alignement unitaire aura de grandes distances entre ses unités, au plus il aura de "désordre", c’est-à-dire d’entropie au sens de (Mathet, 2011). Jean-Philippe Fauconnier Métriques pour l’Annotation 51 / 71
  52. 52. Une approche holiste et unifiée Alignement et Entropie Alignement et Entropie Entropie dans le sens de désordre (et non de (Shannon, 1948)) Alignement : - On mesure l’"entropie" d’un alignement en faisant la moyenne de . l’entropie de chacun de ses alignements unitaires a 1 ¯a e (¯) = |¯| a |¯| a . . e(a) i=1 - Ici, la moyenne est considérée afin d’éviter, dans le cas de comparaison entre deux jeux, l’un avec doublons et l’autre sans, qu’il y ait une différence d’entropie. Jean-Philippe Fauconnier Métriques pour l’Annotation 52 / 71
  53. 53. 1 Coefficients pour l’accord 2 Une approche holiste et unifiée Une approche holiste et unifiée Le désaccord comme créateur de désordre Alignement Alignement idéal et mesure d’accord 3 Corpus LARAt : un cas concret Jean-Philippe Fauconnier Métriques pour l’Annotation 53 / 71
  54. 54. Une approche holiste et unifiée Alignement idéal et mesure d’accord Alignement idéal : - ˆ est l’alignement ¯ qui minimise l’entropie pour tous les a a . alignements unitaires a possibles pour un jeu d’annotations j. Mesure d’accord - Pour un jeu d’annotations j et un corpus c (textes nus) : ealeatoire (c) − e(j) ealeatoire (c) - où ealeatoire est une estimation du "hasard" (cf. section 1), c-à-d de ce que pourrait être l’entropie pour un corpus donné. accord (j) = Interprétation • Si accord (j) = 1, accord parfait et entropie nulle. • Si accord (j) ≤ 0, aucun accord. Jean-Philippe Fauconnier Métriques pour l’Annotation 54 / 71
  55. 55. Une approche holiste et unifiée Alignement idée et mesure d’accord Ainsi : - le choix de l’alignement idéal se fait sur base de l’entropie - réciproquement, la mesure d’accord se fait sur base de l’alignement idéal. Dans la pratique : . - Réduction de l’espace de recherche en enlevant les a improbables - Algorithme d’approximation pour une solution approchée de ˆ a - Nécessité, cependant, de définir un ∆∅ pour chaque campagne Jean-Philippe Fauconnier Métriques pour l’Annotation 55 / 71
  56. 56. 1 Coefficients pour l’accord 2 Une approche holiste et unifiée 3 Corpus LARAt : un cas concret Cadre Retour sur la tâche d’annotation Exploitation Jean-Philippe Fauconnier Métriques pour l’Annotation 56 / 71
  57. 57. Corpus LARAt Cadre Une campagne d’annotation - Objectif : Annoter des structures énumératives selon une typologie multi-dimensionnelle avec plusieurs axes. - Corpus : - 249 documents de Wikipédia (< GEONTO) - 87 documents de Annodis - Un guide d’annotation - 2 annotateurs étudiants Outil : - Les SE sont objets discursifs où la mise en forme du texte est nécessaire pour l’annotation en texte. - Les outils tels que Callisto, MMAX2, Glozz ne conviennent pas. - Nécessité d’un outil adapté : Développement de LARAt Jean-Philippe Fauconnier Métriques pour l’Annotation 57 / 71
  58. 58. Corpus LARAt Cadre Interface de LARAt Jean-Philippe Fauconnier Métriques pour l’Annotation 58 / 71
  59. 59. Corpus LARAt Retour sur la tâche d’annotation Des distributions différentes pour les annotateurs : - Annotateur 1 sur Axe Sémantique Jean-Philippe Fauconnier Métriques pour l’Annotation 59 / 71
  60. 60. Corpus LARAt Retour sur la tâche d’annotation Des distributions différentes pour les annotateurs : - Annotateur 2 sur Axe Sémantique Jean-Philippe Fauconnier Métriques pour l’Annotation 60 / 71
  61. 61. Corpus LARAt Retour sur la tâche d’annotation Distributions différentes au niveau du nombre d’items : - Les classes InstanceOf et isA : grand nombre d’items + outliers Jean-Philippe Fauconnier Métriques pour l’Annotation 61 / 71
  62. 62. Corpus LARAt Exploitation Exploitation : 1. Nécessité de définir un alignement pour calculer les accords 2. Calculer des coef. à distributions individuelles pour évaluer la typologie (k) 3. calculer des coef. à distribution simple pour évaluer le corpus/tâche (α) 1. Alignement par le positionnement - Les multiples axes empêchent une approche unifiée - Alternative : estimer les paramètres de distance - qui nécessite d’annoter un petit set d’annotations .. Jean-Philippe Fauconnier Métriques pour l’Annotation 62 / 71
  63. 63. Corpus LARAt Exploitation : alignement par le positionnement Génération d’alignements unitaires - Sous-ensemble restreint du corpus (env. 300 annot.) - Objectif : estimer des seuils sur diff − start et diff − end Jean-Philippe Fauconnier Métriques pour l’Annotation 63 / 71
  64. 64. Corpus LARAt Exploitation : alignement par le positionnement Annotation semi-automatique des alignements "réels" Jean-Philippe Fauconnier Métriques pour l’Annotation 64 / 71
  65. 65. Corpus LARAt Exploitation : alignement par le positionnement Estimation d’une frontière de décision - Par Support Vector Machine (SVM) Jean-Philippe Fauconnier Métriques pour l’Annotation 65 / 71
  66. 66. Corpus LARAt Exploitation : alignement par le positionnement Estimation d’une frontière de décision - Par régression logistique (ici sur la seule variable diff − start) - Moyennement efficace mais modèle moins "boîte noire" Jean-Philippe Fauconnier Métriques pour l’Annotation 66 / 71
  67. 67. Conclusion L’annotation - est à la base de la majorité des systèmes TAL - est un sujet non clos : - L’annotation multi-labels Le seuil d’accord humain et les performances en ML Les annotateurs réellement "aléatoires" sous A. Mechanical Turk etc. Accord et Alignement : - ne sont pas des problèmes indépendants - il existe de nombreuses métriques : - Nécessité d’un choix conscient - Et d’intervalles de confiance ? Jean-Philippe Fauconnier Métriques pour l’Annotation 67 / 71
  68. 68. Références • S. Afantenos, P. Denis, P. Muller, and L. Danlos, "Learning recursive segments for discourse parsing," in Proc. Proceedings of 7th Language Resources and Evaluation Conference (LREC 2010), 2010. • R. Artstein and M. Poesio, "Inter-coder agreement for computational linguistics," Computational Linguistics, vol. 34, iss. 4, pp. 555-596, 2008. • E. M. Bennett, R. Alpert, and A. Goldstein, "Communications through limited-response questioning," Public Opinion Quarterly, vol. 18, iss. 3, pp. 303-308, 1954. • Y. Bestgen, "Quels indices pour mesurer l’efficacité en segmentation thématique ?," in Proc. Actes de la 16e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2009), 2009. • J. Carletta, "Assessing agreement on classification tasks : the kappa statistic," Computational linguistics, vol. 22, iss. 2, pp. 249-254, 1996. • J. Cohen and others, "A coefficient of agreement for nominal scales," Educational and psychological measurement, vol. 20, iss. 1, pp. 37-46, 1960. • J. Cohen, "Weighted kappa : Nominal scale agreement provision for scaled disagreement or partial credit.," Psychological bulletin, vol. 70, iss. 4, p. 213, 1968. • B. Di Eugenio and M. Glass, "The kappa statistic : A second look," Computational linguistics, vol. 30, iss. 1, pp. 95-101, 2004. Jean-Philippe Fauconnier Métriques pour l’Annotation 68 / 71
  69. 69. Références • J. L. Fleiss, "Measuring nominal scale agreement among many raters.," Psychological bulletin, vol. 76, iss. 5, p. 378, 1971. • Fort, K., Corpus Linguistics : Inter-Annotator Agreements, INIST, 2011. • A. M. Green, "Kappa statistics for multiple raters using categorical classifications," in Proc. Proceedings of the 22nd annual SAS User Group International conference, 1997, pp. 1110-1115. • C. Grouin, S. Rosset, P. Zweigenbaum, K. Fort, O. Galibert, and L. Quintard, "Proposal for an extension of traditional named entities : From guidelines to evaluation, an overview," in Proc. Proceedings of the 5th Linguistic Annotation Workshop, 2011, pp. 92-100. • K. Krippendorff, Content analysis : An introduction to its methodology, Sage Publications, 1980. • K. Krippendorff, "On the reliability of unitizing continuous data," Sociological Methodology, pp. 47-76, 1995. • K. Krippendorff, "Measuring the reliability of qualitative text analysis data," Quality & Quantity, vol. 38, pp. 787-800, 2004. • R. J. Landis and G. G. Koch, "The measurement of observer agreement for categorical data," biometrics, pp. 159-174, 1977. Jean-Philippe Fauconnier Métriques pour l’Annotation 69 / 71
  70. 70. Références • Y. Mathet and A. Widlöcher, "Une approche holiste et unifiée de l’alignement et de la mesure d’accord inter-annotateurs," in Proc. Actes de la 18e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2011), 2011. • C. Müller and M. Strube, "Multi-level annotation of linguistic data with MMAX2," , Braun, S., Kohn, K., and Mukherjee, J., Eds., Frankfurt a.M., Germany : Peter Lang, 2006, pp. 197-214. • E. Pascual and M. P. Pery-Woodley, "La définition dans le texte," Textes de type consigne–Perception, action, cognition, pp. 65-88, 1995. • M. Péry-Woodley, N. Asher, P. Enjalbert, F. Benamara, M. Bras, C. Fabre, S. Ferrari, L. Ho-Dac, A. Le Draoulec, Y. Mathet, and others, "ANNODIS : une approche outillée de l’annotation de structures discursives," in Proc. Actes de la 16e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2009), 2009. • J. Pustejovsky and A. Stubbs, Natural language annotation for machine learning, O’Reilly, 2012. • J. Rebeyrolle, M. P. Jacques, M. P. Péry-Woodley, and others, "Titres et intertitres dans l’organisation du discours 1," Journal of French Language Studies, vol. 19, iss. 2, p. 269, 2009. Jean-Philippe Fauconnier Métriques pour l’Annotation 70 / 71
  71. 71. Références • Rosset, S., Accords inter-annotateurs dans une campagne d’annotation : de la théorie à la pratique, CLEE-ERSS, 2013. • W. A. Scott, "Reliability of content analysis : The case of nominal scale coding.," Public opinion quarterly, 1955. • S. Siegel and J. N. Castellan, Nonparametric Statistics for the Behavioral Sciences, McGraw-HiU Book Company, N. Y., Ed., , 1988, vol. 2nd edition. • C. E. Shannon, "A mathematical theory of communication," The Bell System Technical Journal„ vol. 27, iss. 1, pp. 379-423, 1948. • A. Stubbs, "MAE and MAI : Lightweight Annotation and Adjudication Tools," in Proc. Proceedings of the 5th Linguistic Annotation Workshop, Association of Computational Linguistics, Portland, 2011. • A. Widlöcher and Y. Mathet, "La plate-forme Glozz : environnement d’annotation et d’exploration de corpus," in Proc. Actes de la 16e Conférence sur le Traitement Automatique des Langues Naturelles (TALN 2009), 2009. • A. Widlöcher and Y. Mathet, "The Glozz platform : a corpus annotation and mining tool," in Proc. Proceedings of the 2012 ACM symposium on Document engineering, 2012, pp. 171-180. Jean-Philippe Fauconnier Métriques pour l’Annotation 71 / 71

×