Original title in Spanish: Desambiguación de Palabras Polisémicas mediante Aprendizaje Semi-supervisado
Date: September 2013
Venue: Córdoba, Argentina. 42nd JAIIO - Argentine Journals of Informatics and Operating Research (JAIIO '13)
Corresponding article: https://arxiv.org/abs/1908.09641
Please cite the paper, and link to or credit this presentation when using it or part of it in your work.
Semi-supervised Learning for Word Sense Disambiguation
1. Desambiguación de Palabras Polisémicas
mediante Aprendizaje Semi-supervisado
Darío Garigliotti – FAMAF – UNC
dag0207@famaf.unc.edu.ar
Tipo de colocaciones o evidencias: 1-gramas
que co-ocurren con target en la misma instancia
Lista de decisión – Target:
Interés
-------------------------------
---------
Probab. Cobertura Evidencia
Sentido
-------------------------------
---------
0.999979 2433 tipo
finanzas
0.999775 222 lector
curiosidad
0.999756 205 respetuoso
curiosidad
0.999750 200 réplica
curiosidad
0.999655 145 alza
finanzas
0.999463 93 fed
finanzas
0.999001 50 eurozona
finanzas
0.998981 49 arte
curiosidad
... …...................
Algoritmo de listas de decisión - Factores de impacto,
y criterios y parámetros adoptados
- Consideramos la tarea de desambiguar las ocurrencias de una palabra fija -target- en un texto (lexical sample task).
- Preprocesamos un corpus y realizamos el training inicial, para obtener un conjunto de instancias -oraciones- a etiquetar con un
sentido, cada una con ocurrencia del target y representada por un vector con valores para cada atributo del lexicón.
Aplicar
listas de
decisión
Aprender
reglas de
decisión
Aceptar y ordenar
reglas para obtener
lista de decisión
mientras (no converge y falta desambiguar)Dataset
(formato
ARFF)
Lista final
de reglas
de decisión
Preprocesamiento del corpus
Info de
desem-
peño
Training inicial: desambiguamos
manualmente 2 instancias por sentido
Heurística de “un sentido por
discurso”: distintas ocurrencias del
target en un mismo discurso tendrán
el mismo sentido (No se implementa)
Ecuación de confiabilidad de una regla:
gracias a la optimización de [3] calculamos,
para la regla E → A, la confiabilidad de que la
evidencia E determine el sentido A como:
C(E ,A)=
cantidad deinstanciasetiquetadas como A yconevidencia E
cantidad deinstancias etiquetadas ,conevidenciaE
Threshold de confiabilidad que deben
superar las reglas para ser agregadas a la lista
de decisión: lo fijamos inicialmente en 0.95
Cobertura o cantidad mínima de evidencia que
soporte a una regla: decisiones previas nos
condicionan a pedir apenas cobertura > 0
No permitimos pérdida ni cambio de etiqueta
de sentido para una instancia ya desambiguada
2
La tarea de la desambiguación
La desambiguación de sentidos es muy importante para
que muchas tareas de Procesamiento de Lenguaje
Natural tengan buenos resultados, ya que implícitamente
asumen que no hay ambigüedad.
La estrategia dominante de los algoritmos de
desambiguación es la de emular los mecanismos
humanos, esto es, obtener información del contexto
donde ocurren las palabras polisémicas.
Trabajo relevante
Desde hace tiempo, el problema de la desambiguación es
abordado por métodos de aprendizaje automático de
supervisión ligera o nula.
Con el trabajo de Abney [2] se inicia el análisis sistemático
del algoritmo de Yarowsky.
Algunos factores como la confiabilidad de las reglas
fueron estudiados en [3].
Motivación y objetivo
Yarowsky presentó en [1] un algoritmo de listas de
decisión que realiza un proceso de bootstrapping iterativo
con un training inicial basado en semillas “no
supervisadas”. Este algoritmo abundaba en criterios
ligeramente justificados y/o aún entonces no
parametrizados ni optimizados, y factores implícitos a
determinar.
Nuestro objetivo fue explorar sistemáticamente el impacto
de diferentes aspectos del algoritmo: identificar los
factores relevantes para su funcionamiento y, valorando
cuáles de ellos preservar y con qué criterios y parámetros
particulares, diseñar una implementación sencilla y
evaluar su desempeño.
1
Experimentos con factores
Corpus crudo a preprocesar: publicaciones digitales de diarios españoles (57M de palabras).
Por simplicidad, el entorno experimental presenta estas características:
- Targets: 5 sustantivos de 2 sentidos cada uno, eventualmente incluyendo el fenómeno de homonimia.
- Reducción de dimensión: lexicón formado por los lemas que aparecen en al menos 10 instancias.
Aún así, hay mucha dispersión (verificamos la validez de la ley de Zipf).
.
3
Resultados
Fig. 1 – (a) Cantidad de iteraciones hasta convergencia, y (b) proporciones de subconjuntos del dataset según etiquetas – Target: “interés”.
Nuestras decisiones impactan en general de forma negativa en el desempeño.
- Es de gran conveniencia cualquier factor que incremente la cantidad de reglas en la lista de decisión.
- “velocidad vs. precisión”: factores como un threshold muy tolerante a reglas poco confiables puede
impactar positivamente en la convergencia pero negativamente en la correctitud.
- Caos inicial y estabilización posterior: la Fig. 1 (a) muestra que la primera iteración acepta muy pocas
reglas de escasa evidencia ya que entran ajustadamente en la cobertura exigida: una decisión apenas más
estricta impide toda desambiguación. Se dispara un salto de etiquetado para luego refinarse con más
cobertura y estabilizar las proporciones hasta converger (Fig. 1 (b)).
¿Cuán bien desambigua?
Evaluación bananadoor
4
Estrategia de evaluación bananadoor o de pseudo-palabras: introducida por Schütze en
[4], consiste en elegir arbitrariamente dos palabras, p. ej. “banana” y “door”, y reemplazar en
un corpus toda ocurrencia de cualquiera de las dos por “bananadoor”, es decir, la nueva
pseudo-palabra target. Se aplica el algoritmo de desambiguación y se mide su performance
en contraste con las palabras originales que han sido reemplazadas.
- Produce casi sin costo grandes cantidades de ejemplos para evaluaciones.
- En nuestro caso, “bananadoor” es “vidaciudad”.
Si la palabra con reemplazo mayoritario tiene un k% de los reemplazos, se dispone de:
Algoritmo Baseline: etiquetar toda instancia con el sentido mayoritario da k% de correctos.
Algoritmo Random: etiquetar al azar dando tal sentido mayoritario un k% de las veces.
Perspectivas6 - Observar más precisamente el impacto de algunos de los factores recién mencionados: por ejemplo, contemplar también reglas por
colocación o adyacencia de un lema de cierta categoría morfosintáctica, introducir un criterio que exija una cobertura no fija sino cada vez
más estricta a medida que progresan las iteraciones.
- Realizar una etapa previa de inducción o descubrimiento de sentidos –por ejemplo, mediante clustering sobre el dataset original sin
etiqueta alguna, eventualmente reduciendo dimensionalidades– para guiar el training inicial manual.
- Integrar la información que brindan lexicones verbales para aplicar el algoritmo también sobre targets verbos.
Conclusiones
5 - El training inicial es un factor decisivo, tanto en aspectos de convergencia como en la
correctitud de la desambiguación. Condiciona las decisiones a tomar respecto a otros
factores de gran impacto como el threshold de confiabilidad y las restricciones de
cobertura.
- El uso de una optimización, dada en [3], del smoothing sobre la ecuación de
confiabilidad puede paradójicamente impactar muy negativamente en el desempeño,
todo esto por las mismas consecuencias del etiquetado inicial.
- Factores como reetiquetado, un sentido por discurso o más tipos de colocaciones
pueden refinar la performance, a costo de una convergencia más tardía.
- El desempeño de nuestra implementación supera los baseline y random, y es
aceptable tratándose de una versión tan simplificada.
[1] Yarowsky, D.: Unsupervised word sense disambiguation rivaling supervised
methods. Proc. of the 33rd Annual Meeting of the Association for Computational
Linguistics, 189–196 (1995)
[2] Abney, S.: Understanding the Yarowsky Algorithm. Computational Linguistics
30(3) (2004)
[3] Tsuruoka, Y., Chikayama, T.: Estimating Reliability of Contextual Evidences in
Decision-List Classifiers under Bayesian Learning. Proc. of the Sixth Natural
Language Processing Pacific Rim Symposium, November 27-30, 2001 (2001)
[4] Schütze, H.: Context space. AAAI Fall Symposium on Probabilistic Approaches to
Natural Language, 113–120, Cambridge, MA (1992)
Evaluación bananadoor Otros
Algoritmo Baseline Random Listas de
decisión
Implementación
en [3] (*)
Original/Ideal
en [1]
Performance 51.1% 50.13% 59.86% 69.4% 94.8%
Tabla 1 – Performance de nuestro algoritmo, de los baselines y de otras versiones estudiadas.
(*). Usa ecuación de confiabilidad de log-verosimilitud y cobertura optimizada de al menos 3 evidencias.