Your SlideShare is downloading. ×
0
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
PLN - Anotación automática de textos
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

PLN - Anotación automática de textos

1,422

Published on

Anotación automática de textos: un problema de resolución de ambigüedad

Anotación automática de textos: un problema de resolución de ambigüedad

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,422
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
29
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Anotación automática de textos: resolución de ambigüedad Diego Burgos diegoburgos@itm.edu.co Programa de Idiomas Facultad de Ciencias Instituto Tecnológico Metropolitano – ITM
  • 2. Contenido  Introducción  Marco teórico y metodológico  Tipos de anotación  Métodos de anotación  Anotación morfosintáctica  Anotación semántica (WSD, clases léxicas)  Conclusiones Anotación automática de textos: 27/11/2008 resolución de ambigüedad 2
  • 3. Introducción  Anotación = desambiguación  Ambigüedad:  “múltiples estructuras lingüísticas alternativas para una entrada determinada” (Jurafsky & Martin, 2000)  11.5% types en el Brown corpus son ambiguos  40% tokens son ambiguos, muchos de ellos fáciles de desambiguar. P. ej.: P(Prep|a) > P(N|a) Anotación automática de textos: 27/11/2008 resolución de ambigüedad 3
  • 4. Introducción (2) I made her duck.  Duck can be a verb or a noun (part of speech tagging)  her can be a dative pronoun or a possessive pronoun (probabilistic parsing)  make it can mean create or cook (word sense disambiguation)  make can be transitive, single direct object or ditransitive  make can take a direct object and a verb  I could have been eye or made could have been maid (speech act interpretation) Anotación automática de textos: 27/11/2008 resolución de ambigüedad 4
  • 5. Marco teórico y metodológico Anotación automática de textos: 27/11/2008 resolución de ambigüedad 5
  • 6. Tipos de anotación  Morfosintáctica (pos)  Sintáctica (chunking, parsing)  Semántica (NER, WSD, roles)  Discursiva (dialogue act tagging)  Ad hoc Anotación automática de textos: 27/11/2008 resolución de ambigüedad 6
  • 7. Tipos de anotación (2)  Morfosintáctica (pos):  The cross sections show: a) the D-4S engine with direct and port injectors, and b) the 3GR- FSE direct-injection D-4 version. Anotación automática de textos: 27/11/2008 resolución de ambigüedad 7
  • 8. Tipos de anotación (3)  Morfosintáctica (pos):  The_DT cross_NN sections_VBZ show_NN:_: a_DT )_) the_DT D-4S_NNP engine_NN with_IN direct_JJ and_CC port_JJ injectors_NNS, and_CC b_NN )_) the_DT 3GR-FSE_JJ direct-injection_JJ D-4_NNP version_NN._. Anotación automática de textos: 27/11/2008 resolución de ambigüedad 8
  • 9. Tipos de anotación (4)  Sintáctica (chunking, parsing) !  ([ The_DT cross_NN ]) (( sections_VBZ )) ([ show_NN ]):_: a_DT )_) ([ the_DT D- 4S_NNP engine_NN ]) with_IN ([ direct_JJ and_CC port_JJ injectors_NNS ]) ,_, and_CC ([ b_NN ]))_) ([ the_DT 3GR- FSE_JJ direct-injection_JJ D-4_NNP version_NN ])._. Anotación automática de textos: 27/11/2008 resolución de ambigüedad 9
  • 10. Tipos de anotación (5)  Semántica (NER, WSD, roles temáticos,…)  Identificaciónde nombres y relaciones de entidades en el texto: = persona = evento  Dexi Argüelles debutó en el reciente Salón del Automóvil de Frankfurt. = lugar  Desambiguación léxica de sentidos:  Dexi Argüelles debutó en el reciente Salón del Automóvil de Frankfurt = recinto = evento Anotación automática de textos: 27/11/2008 resolución de ambigüedad 10
  • 11. Métodos de anotación  Lingüísticos:  Basados en reglas o en información lingüística  Probabilísticos:  Probabilidades y modelos matemáticos  Regla de Bayes  Modelos ocultos de Markov (HMM)  Híbridos o mixtos:  Combinación de lingüísticos y probabilísticos  Transformation-Based Tagging  Máxima verosimilitud:  asignar la etiqueta más frecuente Anotación automática de textos: 27/11/2008 resolución de ambigüedad 11
  • 12. Anotación morfosintáctica (pos t)  Es el proceso de asignar una marca (etiqueta o anotación) de categoría gramatical o sintáctica a cada palabra en un corpus.  en/P el/AFS modalidad/N5-FS a/N4666 =/Z el/AFS caja/N5-6S hacer/VDR3S- el/AMP cambio/N5-MP automáticamente/D6 en/P función/N5-FS de/P el/AMS programa/N5-MS drivelogic/N4666 =/Z de/P el/AMS estilo/N5-MS de/P manejo/N5-MS =/Z de/P el/AFS velocidad/N5-FS y/C de/P el/AFS posición/N5-FS de/P el/AMS pedal/N5-MS de/P el/AMS acelerador/N5-MS =/Z Anotación automática de textos: 27/11/2008 resolución de ambigüedad 12
  • 13. Algunas aplicaciones pos t  Aporte importante de información sobre una palabra (o categoría gram.) y sus vecinos.  Síntesis y reconocimiento del habla:  Ejemplo para el inglés:  Objetc (noun) = /'äb-jikt/  Object (verb) = /&b-'jekt/ Anotación automática de textos: 27/11/2008 resolución de ambigüedad 13
  • 14. Algunas aplicaciones pos t (2)  Recuperación de información:  Stemming  la pos puede indicar los sufijos que puede tomar una raíz.  Clasificación de documentos  Detección de sustantivos como palabras clave  Lingüística de corpus:  Frecuencia y representatividad de patrones sintácticos Anotación automática de textos: 27/11/2008 resolución de ambigüedad 14
  • 15. Juegos de etiquetas (tag sets)  C7: 146  http://www.natcorp.ox.ac.uk/docs/bnc2guide.htm  Brown corpus: 87  http://icame.uib.no/brown/bcm.html  Penn Treebank: 45  http://www.cis.upenn.edu/~treebank/ Elección:  especificidad del marcaje  capacidad de caracterización  Eficiencia < 100% Anotación automática de textos: 27/11/2008 resolución de ambigüedad 15
  • 16. Preproceso del corpus  Marcas SGML  <doc_codi g20950>: <s>Afirmó que la fuerza de frenado de un vehículo depende de <num>10</num> factores</s>  Tokenización  la Desambiguar  fuerza puntuación  …  * Lematización: afirmar que el fuerza de frenado de un vehículo depender de diverso factor Anotación automática de textos: 27/11/2008 resolución de ambigüedad 16
  • 17. Entrada y salida pos t  Entrada (input):  texto  juego de etiquetas  Salida:  cada palabra con la mejor etiqueta según cada sistema. Anotación automática de textos: 27/11/2008 resolución de ambigüedad 17
  • 18. Métodos: basados en reglas  Diccionarios (lexicones):  Para asignar a cada palabra una lista de posibles categorías.  Reglas manuales:  Para desambiguar y definir una etiqueta de la lista generada por el diccionario.  Ej.: Constraint Grammar  56.000 entradas en el lexicon  3.744 reglas Anotación automática de textos: 27/11/2008 resolución de ambigüedad 18
  • 19. Métodos: basados en reglas (2) Anotación automática de textos: 27/11/2008 resolución de ambigüedad 19
  • 20. Métodos: basados en reglas (3)  Asignación de etiquetas  John had shown that salivation . . .  John JOHN N NOM SG PROPER  had HAVE V PAST VFIN SVO HAVE PCP2 SVO  shown SHOW PCP2 SVOO SVO SV  that ADV PRON DEM SG DET CENTRAL DEM SG CS  salivation N NOM SG  ... Anotación automática de textos: 27/11/2008 resolución de ambigüedad 20
  • 21. Métodos: basados en reglas (4)  ADVERBIAL-THAT RULE  “it isn‟t that odd”  Dada la entrada: “that” if (+1 A/ADV/QUANT); /* si la próx. palabra es adj, adv. o cuant. */ (+2 SENT-LIM); /* y después hay fin de oración */ (NOT -1 SVOC/A); /* y la palabra anterior no es un verbo como */ /* „consider‟ que permite adjs como comp. de objeto */ /* “I consider that odd” */ then elimina non-ADV tags else elimina ADV tag  Karlsson, F., Voutilainen, A., Heikkil¨a, J., and Anttila, A. (Eds.). (1995b). Constraint Grammar: A Language- Independent System for Parsing Unrestricted Text. Mouton de Gruyter, Berlin. Anotación automática de textos: 27/11/2008 resolución de ambigüedad 21
  • 22. Métodos: probabilísticos (HMM)  HMM simplificado para la anotación mofosintáctica  Uso de probabilidades  Inferencia bayesiana (T. Bayes, desde 1763)  Dado un conjunto de observaciones O y un conjunto de clases C, asignar una clase a cada observación. Anotación automática de textos: 27/11/2008 resolución de ambigüedad 22
  • 23. Métodos: (HMM) (2)  Dada la oración:  “Secretariatis expected to race tomorrow”  ¿Cuál es la mejor secuencia de etiquetas que le corresponde de todas las posibles?  Secuencia de n palabras =  Secuencia de n etiquetas =  Seleccionar la secuencia que maximice : Anotación automática de textos: 27/11/2008 resolución de ambigüedad 23
  • 24. Métodos: (HMM) (3)  Para computar utilizamos la regla bayesiana que fragmenta una probabilidad condicional en otras tres probabilidades:  Podemos obviar el denominador: Anotación automática de textos: 27/11/2008 resolución de ambigüedad 24
  • 25. Métodos: (HMM) (4) Prob.Cond. Prob. a priori.  HMM asume: a) P de una palabra depende de su categoría pero no de otras palabras o categorías: Anotación automática de textos: 27/11/2008 resolución de ambigüedad 25
  • 26. Métodos: (HMM) (5)  HMM asume: b) P de una categoría depende sólo de la categoría anterior (bigramas): Anotación automática de textos: 27/11/2008 resolución de ambigüedad 26
  • 27. Métodos: (HMM) (6)  P. ej.: en español, los determinantes suelen preceder a los nombres pero no tanto a los adjetivos, por eso P(N|Det) > P(Adj|Det) Prob. de una palabra Prob. de transición Anotación automática de textos: 27/11/2008 resolución de ambigüedad 27
  • 28. Métodos: (HMM) (7)  La estimación de la probabilidad de transición se estima con base en un corpus anotado (e.g., Brown): Anotación automática de textos: 27/11/2008 resolución de ambigüedad 28
  • 29. Métodos: (HMM) (8)  Estimación de probabilidad de una palabra dada una etiqueta. P. ej. P(is|VBZ): Anotación automática de textos: 27/11/2008 resolución de ambigüedad 29
  • 30. Métodos: HMM. Ejemplo  Desambiguar “race”  Secretariat/NNP is/BEZ expected/VBN to/TO race/VB tomorrow/NR  People/NNS continue/VB to/TO inquire/VB the/AT reason/NN for/IN the/AT race/NN for/IN outer/JJ space/NN Anotación automática de textos: 27/11/2008 resolución de ambigüedad 30
  • 31. Métodos: HMM. Ejemplo (2) P(VB|TO) = .83 P(NN|TO) = .00047 Anotación automática de textos: 27/11/2008 resolución de ambigüedad 31
  • 32. Métodos: HMM. Ejemplo (3)  Probabilidad de “race” dada la etiqueta:  P(race|NN) = .00057  P(race|VB) = .00012  Probabilidad de secuencia de etiquetas con NR (“tomorrow”):  P(NR|VB) = .0027  P(NR|NN) = .0012  Selección de la etiqueta:  P(VB|TO)P(NR|VB)P(race|VB) = .00000027  P(NN|TO)P(NR|NN)P(race|NN) = .00000000032 Anotación automática de textos: 27/11/2008 resolución de ambigüedad 32
  • 33. Métodos: formalización de HMM  HMM: autómata de estados finitos (= conjunto de estados y conjunto de transiciones entre los estados ambos basados en observaciones)  Ponderado (weighted): cada arco se asocia con una probabilidad.  Cadena de Markov: para secuencias no ambiguas  HMM: para secuencias ambiguas (e.g., anotación) Anotación automática de textos: 27/11/2008 resolución de ambigüedad 33
  • 34. Métodos: formalización HMM (2)  Un HMM está especificado por:  Q = q1q2 . . .qN conjunto de estados  A = a01a02 . . .an1 . . .ann matriz de probabilidad de transición A, cada aij representa la probabilidad de moverse del estado i al estado j,  O = o1o2 . . .oN conjunto de observaciones, cada una tomada de un vocabulario V = v1,v2, ...,vV .  B = bi(ot ) Conjunto de probabilidades de emisión; cada una expresa la probabilidad de que una observación ot se genere desde el estado i.  q0,qend estado especial de inicio y fin que no se asocia con las observaciones  En resumen, dos probabilidades: transición (a priori) y observación (condicionada) Anotación automática de textos: 27/11/2008 resolución de ambigüedad 34
  • 35. Métodos: formalización HMM (3) Anotación automática de textos: 27/11/2008 resolución de ambigüedad 35
  • 36. Métodos: formalización HMM (4) Anotación automática de textos: 27/11/2008 resolución de ambigüedad 36
  • 37. Métodos: HMM. Adicionales  Algoritmo de Viterbi  Trigramas … Anotación automática de textos: 27/11/2008 resolución de ambigüedad 37
  • 38. Métodos: transformation-based  Combinación de métodos basados en reglas y estocásticos  Las reglas se inducen automáticamente de los datos  Supervisado (i.e., necesita corpus anotado)  Paradigma TBL según Terry Harvey Anotación automática de textos: 27/11/2008 resolución de ambigüedad 38
  • 39. Métodos: TBL (2)  ¿Cómo se asignan las etiquetas?  Anotación mediante máxima verosimilitud  P(NN|race) = .98  P(VB|race) = .02  Se aplican reglas de transformación  Cambiar NN a VB cuando la etiqueta anterior es TO  Se reasignan etiquetas  Iterar pasos 2 y 3 Anotación automática de textos: 27/11/2008 resolución de ambigüedad 39
  • 40. Métodos: TBL (3)  El número de transformaciones se limita mediante plantillas. Cambia “a” a “b” cuando:  La etiqueta + 1 (-1) es z.  La etiqueta +2 (-2) es z.  La etiqueta +2 ó +1 (-2 ó -1) es z.  Una de las etiquetas anteriores o posteriores es z.  La etiqueta +1 es w y la etiqueta -1 es z.  La etiqueta -1 (+1) es z y la etiqueta -2 (+2) es w. Anotación automática de textos: 27/11/2008 resolución de ambigüedad 40
  • 41. Otros  Evaluación y análisis del error  Tópicos avanzados  Tokenización  Palabras y etiquetas desconocidas  Particularidad de otros idiomas  Combinación de anotadores Anotación automática de textos: 27/11/2008 resolución de ambigüedad 41
  • 42. Herramientas  Machinese  (http://www.connexor.com/)  POS y sintáctico  NER (Inglés, genera pdf)  6 idiomas, incluido el español  Versión en línea  Versión gratuita para investigación Anotación automática de textos: 27/11/2008 resolución de ambigüedad 42
  • 43. Herramientas (2)  TreeTagger  (http://www.cele.nottingham.ac.uk/~ccztk/treetagg er.php)  POS  7 idiomas, incluido el español  Versión en línea  Versión gratuita para investigación Anotación automática de textos: 27/11/2008 resolución de ambigüedad 43
  • 44. Herramientas (3)  QTag  (http://www.english.bham.ac.uk/staff/omason/softw are/qtag.html)  POS  Probabilístico  Independiente de lengua, aunque ahora sólo tiene recursos para el inglés  Gratuito Anotación automática de textos: 27/11/2008 resolución de ambigüedad 44
  • 45. Herramientas (4)  Stanford Log-linear Part-Of-Speech Tagger download  (http://nlp.stanford.edu/software/postagger-2006-05- 21.tar.gz)  POS  Probabilístico  Independiente de lengua, aunque ahora sólo tiene recursos para el inglés  Java  Gratuito Anotación automática de textos: 27/11/2008 resolución de ambigüedad 45
  • 46. Herramientas (5)  Tatoo  POS  Probabilístico  Independiente de lengua, aunque ahora sólo tiene recursos para el inglés  Gratuito Anotación automática de textos: 27/11/2008 resolución de ambigüedad 46
  • 47. Herramientas (6)  FreeLing  POS, sintáctico, NER, sentidos de EWN  Multilingüe, incluye el español  Gratuito Anotación automática de textos: 27/11/2008 resolución de ambigüedad 47
  • 48. Anotación semántica  Desambiguación de sentidos: examinar palabras en contexto para determinar con qué sentido se usa cada una.  Similitud léxica, hiperonimia, hiponimia, y meronimia: relaciones léxicas (WordNet).  Papeles semánticos: anotación de agente, tema, instrumento respecto de predicados determinados. Anotación automática de textos: 27/11/2008 resolución de ambigüedad 48
  • 49. WSD  Homonimia  Polisemia  Algunas aplicaciones  Traducción automática (bass = (lubina|bajo)  Respuestas a preguntas  Recuperación de información  Clasificación de textos (MeSH - UMLS)  Síntesis del habla Anotación automática de textos: 27/11/2008 resolución de ambigüedad 49
  • 50. WSD (2)  Supervisado  Corpus de entrenamiento etiquetado con los sentidos correctos  Muestra:  Line, hard, serve, interest  http://www.cs.toronto.edu/~smm/WebPages/software.html  Textos completos:  SemCor (700K palabras, 200K con WordNet 1.6)  http://multisemcor.itc.it/semcor.php  SENSEVAL  http://www.senseval.org/ Anotación automática de textos: 27/11/2008 resolución de ambigüedad 50
  • 51. WSD supervisado (3)  Extracción de rasgos  Indicios del sentido de una palabra  ¿cuál será el tamaño indicado de la ventana para desambiguar el sentido de una palabra?  Es necesario el preproceso:  pos tagging  lematización  análisis sintáctico Vector de rasgos Anotación automática de textos: 27/11/2008 resolución de ambigüedad 51
  • 52. WSD supervisado (4)  Rasgos:  Colocacional: situación exacta de los vecinos  “En la noche, la guitarra y el bajo sonaron con contundencia en el escenario”  [wi−2,POSi−2,wi−1,POSi−1,wi+1,POSi+1,wi+2,POSi+2]  [y, CJC, el, DET, sonar, V, con, P] Anotación automática de textos: 27/11/2008 resolución de ambigüedad 52
  • 53. WSD supervisado (5)  Rasgos:  “Bolsa de palabras” (bag-of-words): conjunto desordenado de palabras (clases abiertas) en cuyo contexto (ventana n) se evalúa la presencia de la palabra a desambiguar. P. ej  12 palabras más frecuentes de un conjunto de oraciones que contienen la palabra bajo (WSJ):  [pesca, grande, sonido, sonar, volar, biela, libra, doble, correr, jugar, contundencia, banda]  [0,0,0,1,0,0,0,0,0,0,1,0] Anotación automática de textos: 27/11/2008 resolución de ambigüedad 53
  • 54. WSD supervisado (6)  Clasificador Naive Bayes:  Dado un vector, cuál es el sentido más probable para Datos que ese vector: asocian vectores específicos con cada sentido son escasos Anotación automática de textos: 27/11/2008 resolución de ambigüedad 54
  • 55. WSD supervisado (7)  En el corpus de entrenamiento abundan los pares atributo-valor en el contexto de sentidos específicos, lo que permite suponer la independencia de los atributos: La probabilidad de un vector dado un sentido = producto de las probabilidades de cada uno de sus atributos Anotación automática de textos: 27/11/2008 resolución de ambigüedad 55
  • 56. WSD supervisado (8)  El entrenamiento del Naive Bayes consiste en estimar cada una de estas probabilidades: P a priori de cada sentido: P a priori de cada atributo: Anotación automática de textos: 27/11/2008 resolución de ambigüedad 56
  • 57. WSD supervisado (9)  Así, si un rasgo colocacional como [wi−2 = guitarra] ocurre 3 veces para el sentido bajo1 y el sentido bajo1 ocurre 60 veces, P( f j |s) = 0.05.  Más específicamente, tomamos la palabra en contexto, extraemos los rasgos, computamos:  para cada sentido, y generamos el sentido asociado con el puntaje más alto. Anotación automática de textos: 27/11/2008 resolución de ambigüedad 57
  • 58. WSD supervisado (10)  ¿Y si en el corpus de prueba la palabra coocurre con otra que no estaba en el corpus de entrenamiento?  P( f j |s) = 0 smoothing (suavizado)  LaplaceP( f j |s) = (3 + 1) / (60 + w) Anotación automática de textos: 27/11/2008 resolución de ambigüedad 58
  • 59. WSD Lesk  Diccionarios y tesauros  Algoritmo de Lesk: selecciona el sentido cuya definición comparta el mayor número de palabras con el contexto de la palabra a desambiguar. P. ej., desambiguar bank en:  “The bank can guarantee deposits will eventually cover future tuition costs because it invests in adjustable-rate mortgage securities.” Anotación automática de textos: 27/11/2008 resolución de ambigüedad 59
  • 60. WSD Lesk (2)  Dados los siguientes dos sentidos de WordNet:  El sentido 1 tiene dos palabras (cat. abiertas) que coinciden con el contexto, i.e., deposits y mortgage. En el sentido 2 no hay coincidencias. Se asigna el sentido 1.  Este algoritmo depende de la longitud de las definiciones en el diccionario (véanse extensiones del algoritmo) Anotación automática de textos: 27/11/2008 resolución de ambigüedad 60
  • 61. WSD Similitud entre sentidos  Dos palabras (sentidos) son más similares sin comparten más rasgos semánticos y hay más distancia entre ellas, mientras menos rasgos compartan.  Basado en diccionarios (tesauros o redes semánticas WordNet)  Distribucional Anotación automática de textos: 27/11/2008 resolución de ambigüedad 61
  • 62. WSD Similitud entre sentidos (2)  Basado en diccionarios  Hiponimia (is-a) e hiperonimia {conveyance; transport} hyperonym {vehicle} hyperonym {bumper} {hinge; flexible joint} {motor vehicle; automotive vehicle} meronym {car door} {doorlock} meronym meronym hyperonym {car; auto; automobile; machine; motorcar} {car window} {armrest} meronym {car mirror} hyperonym hyperonym {cruiser; squad car; patrol car; police car; prowl car} {cab; taxi; hack; taxicab; } Anotación automática de textos: 27/11/2008 resolución de ambigüedad 62
  • 63. WSD Similitud entre sentidos (3)  Medida por longitud de rutas ruta Anotación automática de textos: 27/11/2008 resolución de ambigüedad 63
  • 64. WSD Similitud entre sentidos (4) Top  EuroWordNet 1stOrderEntity 2ndOrderEntity Function Composition Origin Form SituationType SituationComponent Etc…. Etc. Covering Part Group Natural Object Static Dynamic Physical Location Experience Mental Living Human skin Direction desire body church human change of position feel hair distance disturbance part company adult divide body- spatial property emotion cell institute adult female locomotion covering spatial relation feeling muscle organization adult male motion course humor organ party child path pleasance union native offspring Anotación automática de textos: 27/11/2008 resolución de ambigüedad 64
  • 65. WSD Similitud entre sentidos (5)  Distribucional:  El significado de una palabra está relacionado con la distribución de las palabras que la rodean. P. Ej  A bottle of tezgüino is on the table.  Everybody likes tezgüino.  Tezgüino makes you drunk.  We make tezgüino out of corn. Anotación automática de textos: 27/11/2008 resolución de ambigüedad 65
  • 66. WSD Similitud entre sentidos (6)  Adicionales:  Extensiones de estos algoritmos  Evaluación Anotación automática de textos: 27/11/2008 resolución de ambigüedad 66
  • 67. Papeles semánticos Anotación automática de textos: 27/11/2008 resolución de ambigüedad 67
  • 68. Otros  Métodos no supervisados  Técnicas de aprendizaje automático Anotación automática de textos: 27/11/2008 resolución de ambigüedad 68
  • 69. ¡Gracias! Anotación automática de textos: 27/11/2008 resolución de ambigüedad 69

×