Your SlideShare is downloading. ×
Corpus lsp
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Corpus lsp

686

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
686
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Uso de corpus en LSP Borja Navarro Colorado Dto. de Lenguajes y Sistemas Inform´aticos Universidad de Alicante M´aster en ingl´es y espa˜nol para fines espec´ıficos y empresariales. 1 / 34 Uso de corpus en LSP
  • 2. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Recursos del profesional en lenguas de especialidad Diccionarios Texto impreso 2 / 34 Uso de corpus en LSP
  • 3. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Recursos del profesional en lenguas de especialidad Diccionarios Texto impreso Profesional del campo 2 / 34 Uso de corpus en LSP
  • 4. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Recursos del profesional en lenguas de especialidad Diccionarios Texto impreso Profesional del campo Intuici´on: inteligencia m´as conocimiento 2 / 34 Uso de corpus en LSP
  • 5. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Recursos del profesional en lenguas de especialidad Diccionarios Texto impreso Profesional del campo Intuici´on: inteligencia m´as conocimiento Corpus en formato digital 2 / 34 Uso de corpus en LSP
  • 6. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Recursos del profesional en lenguas de especialidad Diccionarios Texto impreso Profesional del campo Intuici´on: inteligencia m´as conocimiento Corpus en formato digital 2 / 34 Uso de corpus en LSP
  • 7. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues ´Indice 1 Introducci´on 2 Dise˜no y compilaci´on 3 Marcado y anotaci´on de corpus 4 Corpus multiling¨ues 5 Procesos b´asicos de corpus para LSP 6 Herramientas 3 / 34 Uso de corpus en LSP
  • 8. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Definici´on Corpus ling¨u´ıstico “A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research” (John Sinclair 2004). Colecci´on amplia de textos Textos aut´enticos Textos digitales Recopilados de acuerdo a unos criterios [Bowker and Pearson, 2002]. 4 / 34 Uso de corpus en LSP
  • 9. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Qu´e aportan los corpus a LSP Muestra la lengua de especialidad tal y como es (m´etodos emp´ıricos, basados en datos reales). Muestra el comportamiento y el contexto real de las palabras y unidades ling¨u´ısticas. Permite an´alisis de frecuencias: terminolog´ıa, patrones ling¨u´ısticos y estil´ısticos m´as frecuentes, etc. Banco de pruebas donde confirmar o refutar hip´otesis sobre LSP. (...) 5 / 34 Uso de corpus en LSP
  • 10. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Tipos de corpus Corpus de referencia general vs. corpus espec´ıficos (LSP) Escrito vs. oral. 6 / 34 Uso de corpus en LSP
  • 11. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Tipos de corpus Corpus de referencia general vs. corpus espec´ıficos (LSP) Escrito vs. oral. Monoling¨ue vs multiling¨ue. Multiling¨ue paralelo vs. multiling¨ue comparable 6 / 34 Uso de corpus en LSP
  • 12. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Tipos de corpus Corpus de referencia general vs. corpus espec´ıficos (LSP) Escrito vs. oral. Monoling¨ue vs multiling¨ue. Multiling¨ue paralelo vs. multiling¨ue comparable Diacr´onico vs. sincr´onico. 6 / 34 Uso de corpus en LSP
  • 13. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Tipos de corpus Corpus de referencia general vs. corpus espec´ıficos (LSP) Escrito vs. oral. Monoling¨ue vs multiling¨ue. Multiling¨ue paralelo vs. multiling¨ue comparable Diacr´onico vs. sincr´onico. Abierto (actualizado) vs cerrado (fechas determinadas) 6 / 34 Uso de corpus en LSP
  • 14. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Tipos de corpus Corpus de referencia general vs. corpus espec´ıficos (LSP) Escrito vs. oral. Monoling¨ue vs multiling¨ue. Multiling¨ue paralelo vs. multiling¨ue comparable Diacr´onico vs. sincr´onico. Abierto (actualizado) vs cerrado (fechas determinadas) Corpus de aprendizaje. 6 / 34 Uso de corpus en LSP
  • 15. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Tipos de corpus Corpus de referencia general vs. corpus espec´ıficos (LSP) Escrito vs. oral. Monoling¨ue vs multiling¨ue. Multiling¨ue paralelo vs. multiling¨ue comparable Diacr´onico vs. sincr´onico. Abierto (actualizado) vs cerrado (fechas determinadas) Corpus de aprendizaje. 6 / 34 Uso de corpus en LSP
  • 16. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Tipos de corpus en LSP Seg´un los textos que forman el corpus: Textos entre expertos: lengua de la especilidad. 7 / 34 Uso de corpus en LSP
  • 17. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Tipos de corpus en LSP Seg´un los textos que forman el corpus: Textos entre expertos: lengua de la especilidad. Textos entre expertos y semi-expertos (estudiantes). Textos docentes. Explicaci´on de terminolog´ıa 7 / 34 Uso de corpus en LSP
  • 18. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Tipos de corpus en LSP Seg´un los textos que forman el corpus: Textos entre expertos: lengua de la especilidad. Textos entre expertos y semi-expertos (estudiantes). Textos docentes. Explicaci´on de terminolog´ıa Textos entre expertos y no-expertos. Textos divulgativos. Explicaci´on simples de conceptos. Poca terminolog´ıa. 7 / 34 Uso de corpus en LSP
  • 19. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Tipos de corpus en LSP Seg´un los textos que forman el corpus: Textos entre expertos: lengua de la especilidad. Textos entre expertos y semi-expertos (estudiantes). Textos docentes. Explicaci´on de terminolog´ıa Textos entre expertos y no-expertos. Textos divulgativos. Explicaci´on simples de conceptos. Poca terminolog´ıa. 7 / 34 Uso de corpus en LSP
  • 20. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Dise˜no de corpus para LSP Los criterios de selecci´on de textos viene determinado por las necesidades y objetivos del trabajo en LSP. Tama˜no: Un corpus amplio no implica un corpus bueno Representatividad de los texto utilizados A partir de 10.000 palabras 8 / 34 Uso de corpus en LSP
  • 21. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Dise˜no de corpus para LSP Los criterios de selecci´on de textos viene determinado por las necesidades y objetivos del trabajo en LSP. Tama˜no: Un corpus amplio no implica un corpus bueno Representatividad de los texto utilizados A partir de 10.000 palabras Abierto o cerrado: fechas de publicaci´on. 8 / 34 Uso de corpus en LSP
  • 22. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Dise˜no de corpus para LSP Los criterios de selecci´on de textos viene determinado por las necesidades y objetivos del trabajo en LSP. Tama˜no: Un corpus amplio no implica un corpus bueno Representatividad de los texto utilizados A partir de 10.000 palabras Abierto o cerrado: fechas de publicaci´on. Fragmentos de texto o textos completos 8 / 34 Uso de corpus en LSP
  • 23. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Dise˜no de corpus para LSP Los criterios de selecci´on de textos viene determinado por las necesidades y objetivos del trabajo en LSP. Tama˜no: Un corpus amplio no implica un corpus bueno Representatividad de los texto utilizados A partir de 10.000 palabras Abierto o cerrado: fechas de publicaci´on. Fragmentos de texto o textos completos 8 / 34 Uso de corpus en LSP
  • 24. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Dise˜no de corpus para LSP Los criterios de selecci´on de textos viene determinado por las necesidades y objetivos del trabajo en LSP. Cantidad de textos: ¿cu´antos textos?, ¿cu´antos autores? M´as representativo textos diversos de diferentes autores. Medio: ¿texto escrito o transcripciones de texto oral? 9 / 34 Uso de corpus en LSP
  • 25. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Dise˜no de corpus para LSP Los criterios de selecci´on de textos viene determinado por las necesidades y objetivos del trabajo en LSP. Cantidad de textos: ¿cu´antos textos?, ¿cu´antos autores? M´as representativo textos diversos de diferentes autores. Medio: ¿texto escrito o transcripciones de texto oral? Tema. 9 / 34 Uso de corpus en LSP
  • 26. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Dise˜no de corpus para LSP Los criterios de selecci´on de textos viene determinado por las necesidades y objetivos del trabajo en LSP. Cantidad de textos: ¿cu´antos textos?, ¿cu´antos autores? M´as representativo textos diversos de diferentes autores. Medio: ¿texto escrito o transcripciones de texto oral? Tema. Tipo de textos: expertos, semi-expertos, no expertos. 9 / 34 Uso de corpus en LSP
  • 27. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Dise˜no de corpus para LSP Los criterios de selecci´on de textos viene determinado por las necesidades y objetivos del trabajo en LSP. Cantidad de textos: ¿cu´antos textos?, ¿cu´antos autores? M´as representativo textos diversos de diferentes autores. Medio: ¿texto escrito o transcripciones de texto oral? Tema. Tipo de textos: expertos, semi-expertos, no expertos. Idiomas: monoling¨ue o multiling¨ue. Paralelo o comparable. 9 / 34 Uso de corpus en LSP
  • 28. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Dise˜no de corpus para LSP Los criterios de selecci´on de textos viene determinado por las necesidades y objetivos del trabajo en LSP. Cantidad de textos: ¿cu´antos textos?, ¿cu´antos autores? M´as representativo textos diversos de diferentes autores. Medio: ¿texto escrito o transcripciones de texto oral? Tema. Tipo de textos: expertos, semi-expertos, no expertos. Idiomas: monoling¨ue o multiling¨ue. Paralelo o comparable. 9 / 34 Uso de corpus en LSP
  • 29. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Dise˜no de corpus para LSP Los criterios de selecci´on de textos viene determinado por las necesidades y objetivos del trabajo en LSP. Cantidad de textos: ¿cu´antos textos?, ¿cu´antos autores? M´as representativo textos diversos de diferentes autores. Medio: ¿texto escrito o transcripciones de texto oral? Tema. Tipo de textos: expertos, semi-expertos, no expertos. Idiomas: monoling¨ue o multiling¨ue. Paralelo o comparable. 9 / 34 Uso de corpus en LSP
  • 30. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Compilaci´on de corpus para LSP B´usqueda, identificaci´on y recolecci´on de los textos m´as representativos. Problema: derechos de autor. Fuentes: Textos escaneados y/o transcritos. Web Bases de datos textuales on-line (jur´ıdico, cient´ıfico, m´edico, etc.) 10 / 34 Uso de corpus en LSP
  • 31. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Marcado y anotaci´on de corpus Marcado de corpus: metadatos sobre cada documento. Anotaci´on de corpus: informaci´on ling¨u´ıstica expl´ıcita. 11 / 34 Uso de corpus en LSP
  • 32. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Marcado de corpus Origen: marcas en los manuscritos sobre el formato impreso final. Base del funcionamiento de los procesadores de textos actuales WYSIWYG. Latex Necesidad de estandarizaci´on: SGML (Goldfarb 1960) - XML. 12 / 34 Uso de corpus en LSP
  • 33. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues SGML Standard Generalized Markup Language ISO8879 Lenguaje de marcado expl´ıcito: cada etiqueta nombra expl´ıcitamente la estructura y tipo de documento: encabezados, notas, tablas, p´arrafos, etc. V´alido para cualquier documento y colecci´on de etiquetas: DTD (Document Type Definition) <...> </...> 13 / 34 Uso de corpus en LSP
  • 34. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues XML Similar a SGML, pero optimizado para intercambio de informaci´on en web. Lenguaje de marcado expl´ıcito con DTD. 14 / 34 Uso de corpus en LSP
  • 35. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Est´andar para el marcado ling¨u´ıstico de corpus Se busca la reutilizaci´on de corpus. CES: Corpus Encoding Standards http://www.cs.vassar.edu/CES/ Informaci´on que debe ser marcada: Encabezado: informaci´on sobre el texto y su contenido (lengua, datos bibliogr´aficos, etc.) TEI http://www.tei-c.org/index.xml Datos primarios: el texto en s´ı mismo y estructura (p´arrafos, encabezados, etc.) Informaci´on ling¨u´ıstica (anotaci´on). 15 / 34 Uso de corpus en LSP
  • 36. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Anotaci´on ling¨u´ıstica de corpus Anotaci´on autom´atica o semi-autom´atica con m´odulos de PLN. La informaci´on ling¨u´ıstica se hace expl´ıcita, y permite an´alisis de corpus m´as sofisticados y profundos. PoS-tagger Sintaxis (parser) Sem´antica Textual y pragm´atica: an´aforas, entidades, expresiones temporales, estructura ret´orica, estructura del di´alogo, otras. 16 / 34 Uso de corpus en LSP
  • 37. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Corpus multiling¨ues Corpus comparables. Corpus paralelos. 17 / 34 Uso de corpus en LSP
  • 38. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Corpus paralelos: ¿d´onde encontrarlos? Textos en lengua origen m´as su traducci´on a una o m´as lenguas. Traducci´on propia. Fuentes multiling¨ues: Uni´on europea y administraciones o estados multiling¨ues. Traducciones profesionales: revistas cient´ıficas (Scientific American). Webs multiling¨ues. otras LDC - ELRA Memorias de traducci´on: reutilizaci´on de traducci´on previas en traducciones nuevas. 18 / 34 Uso de corpus en LSP
  • 39. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Alineaci´on Enlaza cada fragmento de texto origen con su correspondiente traducci´on en el texto meta. Fragementos a alinear: P´arrafo: mismo n´umero de p´arrafos. Lo m´as com´un. Oraci´on: mismo n´umero de oraciones. Complejo. Palabra o unidades l´exicas: muy complejo. 19 / 34 Uso de corpus en LSP
  • 40. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Alineaci´on Enlaza cada fragmento de texto origen con su correspondiente traducci´on en el texto meta. Fragementos a alinear: P´arrafo: mismo n´umero de p´arrafos. Lo m´as com´un. Oraci´on: mismo n´umero de oraciones. Complejo. Palabra o unidades l´exicas: muy complejo. Proceso: 1 Marcar expl´ıcitamente cada fragmento a alinear. Mismo n´umero de unidades en cada texto. 2 Alineaci´on: manual o semi-autom´atica. Software: MultiConcord, Trados, OmegaT, Google Translation Toolkit, etc. 19 / 34 Uso de corpus en LSP
  • 41. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Alineaci´on Enlaza cada fragmento de texto origen con su correspondiente traducci´on en el texto meta. Fragementos a alinear: P´arrafo: mismo n´umero de p´arrafos. Lo m´as com´un. Oraci´on: mismo n´umero de oraciones. Complejo. Palabra o unidades l´exicas: muy complejo. Proceso: 1 Marcar expl´ıcitamente cada fragmento a alinear. Mismo n´umero de unidades en cada texto. 2 Alineaci´on: manual o semi-autom´atica. Software: MultiConcord, Trados, OmegaT, Google Translation Toolkit, etc. 19 / 34 Uso de corpus en LSP
  • 42. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Problemas y usos de corpus alineados Principios falsos de la alineaci´on: No ha correlaci´on uno-a-uno entre texto origen y su traducci´on a nivel oracional e inferiores. La correlaci´on no tiene por qu´e ser secuencial. No todo fragmento puede estar traducido. Ej. referencias culturales. Algunos usos: An´alisis de correspondencias de traducci´on. Completa la informaci´on de diccionarios: uso real de los textos. Corpus de aprendizaje para sistemas de alineaci´on autom´atica y traducci´on autom´atica. 20 / 34 Uso de corpus en LSP
  • 43. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Problemas y usos de corpus alineados Principios falsos de la alineaci´on: No ha correlaci´on uno-a-uno entre texto origen y su traducci´on a nivel oracional e inferiores. La correlaci´on no tiene por qu´e ser secuencial. No todo fragmento puede estar traducido. Ej. referencias culturales. Algunos usos: An´alisis de correspondencias de traducci´on. Completa la informaci´on de diccionarios: uso real de los textos. Corpus de aprendizaje para sistemas de alineaci´on autom´atica y traducci´on autom´atica. 20 / 34 Uso de corpus en LSP
  • 44. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Procesos b´asicos de corpus para LSP Extracci´on de frecuencias. An´alisis de concordancias (KWIC) Extracci´on de colocaciones (co-ocurrencias) 21 / 34 Uso de corpus en LSP
  • 45. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues An´alisis de frecuencias Contar las palabras que aparecen en un corpus. Palabras Token: cada aparici´on de una misma palabra en el texto. Type: la palabra en s´ı, el tipo de palabra. 22 / 34 Uso de corpus en LSP
  • 46. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues An´alisis de frecuencias Contar las palabras que aparecen en un corpus. Palabras Token: cada aparici´on de una misma palabra en el texto. Type: la palabra en s´ı, el tipo de palabra. Frecuencia: n´umero de repeticiones (tokens) de la misma palabra (type) en un corpus. 22 / 34 Uso de corpus en LSP
  • 47. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues An´alisis de frecuencias Contar las palabras que aparecen en un corpus. Palabras Token: cada aparici´on de una misma palabra en el texto. Type: la palabra en s´ı, el tipo de palabra. Frecuencia: n´umero de repeticiones (tokens) de la misma palabra (type) en un corpus. 22 / 34 Uso de corpus en LSP
  • 48. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues An´alisis de frecuencias Los an´alisis de frecuencias aportan datos objetivos sobre los textos del corpus: Tama˜no del texto. Riqueza l´exica: ratio tokens/types. 23 / 34 Uso de corpus en LSP
  • 49. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues An´alisis de frecuencias Los an´alisis de frecuencias aportan datos objetivos sobre los textos del corpus: Tama˜no del texto. Riqueza l´exica: ratio tokens/types. Palabras m´as utilizadas: Palabras funcionales: eliminar con lista de stopwords. 23 / 34 Uso de corpus en LSP
  • 50. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues An´alisis de frecuencias Los an´alisis de frecuencias aportan datos objetivos sobre los textos del corpus: Tama˜no del texto. Riqueza l´exica: ratio tokens/types. Palabras m´as utilizadas: Palabras funcionales: eliminar con lista de stopwords. Orden alfab´etico e inverso: An´alisis de palabras con la misma ra´ız (familias l´exicas). An´alisis de palabras con la misma terminaci´on (familias morfol´ogicas). 23 / 34 Uso de corpus en LSP
  • 51. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues An´alisis de frecuencias Los an´alisis de frecuencias aportan datos objetivos sobre los textos del corpus: Tama˜no del texto. Riqueza l´exica: ratio tokens/types. Palabras m´as utilizadas: Palabras funcionales: eliminar con lista de stopwords. Orden alfab´etico e inverso: An´alisis de palabras con la misma ra´ız (familias l´exicas). An´alisis de palabras con la misma terminaci´on (familias morfol´ogicas). 23 / 34 Uso de corpus en LSP
  • 52. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues An´alisis de frecuencias Los an´alisis de frecuencias aportan datos objetivos sobre los textos del corpus: Extracci´on de terminolog´ıa espec´ıfica del corpus LSP (keywords) Palabras frecuentes en un corpus LSP que no lo son en un corpus de referencia gen´erico. Comparaci´on de corpus y eliminaci´on de palabras comunes. Agrupaciones de palabras (cluster) n-gramas An´alisis de unidades superiores a la palabra: unidades multipalabra, unidades sintagm´aticas, etc. 24 / 34 Uso de corpus en LSP
  • 53. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues An´alisis de frecuencias Los an´alisis de frecuencias aportan datos objetivos sobre los textos del corpus: Extracci´on de terminolog´ıa espec´ıfica del corpus LSP (keywords) Palabras frecuentes en un corpus LSP que no lo son en un corpus de referencia gen´erico. Comparaci´on de corpus y eliminaci´on de palabras comunes. Agrupaciones de palabras (cluster) n-gramas An´alisis de unidades superiores a la palabra: unidades multipalabra, unidades sintagm´aticas, etc. 24 / 34 Uso de corpus en LSP
  • 54. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues An´alisis de concordancias Muestra todas las apariciones en el corpus de un t´ermino de b´usqueda junto a su contexto inmediato. KWIC: KewWord in Context An´alisis detallado del significado y compartamiento de una palabra o unidad ling¨u´ıstica en sus diferentes contextos de uso. Informaci´on complementaria al diccionario. Concordancias biling¨ues (textos paralelos): la palabra en contexto en ambas lenguas. 25 / 34 Uso de corpus en LSP
  • 55. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Problema(s) Todos estos programas y/o m´etodos no tienen en cuenta la flexi´on morfol´ogicas de las palabras. “Amar”, “amar´ıa”, “amaste”, “am´e”... son considerados tipos de palabras diferentes. 26 / 34 Uso de corpus en LSP
  • 56. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Problema(s) Todos estos programas y/o m´etodos no tienen en cuenta la flexi´on morfol´ogicas de las palabras. “Amar”, “amar´ıa”, “amaste”, “am´e”... son considerados tipos de palabras diferentes. Soluci´on: utiliza en el patr´on de b´usqueda expresiones regulares. 26 / 34 Uso de corpus en LSP
  • 57. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Problema(s) Todos estos programas y/o m´etodos no tienen en cuenta la flexi´on morfol´ogicas de las palabras. “Amar”, “amar´ıa”, “amaste”, “am´e”... son considerados tipos de palabras diferentes. Soluci´on: utiliza en el patr´on de b´usqueda expresiones regulares. 26 / 34 Uso de corpus en LSP
  • 58. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Problema(s) Todos estos programas y/o m´etodos no tienen en cuenta la flexi´on morfol´ogicas de las palabras. “Amar”, “amar´ıa”, “amaste”, “am´e”... son considerados tipos de palabras diferentes. Soluci´on: utiliza en el patr´on de b´usqueda expresiones regulares. 26 / 34 Uso de corpus en LSP
  • 59. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Expresiones regulares Permiten hacer b´usquedas avanzadas de cadenas de caracteres. Constan de una serie de caracteres comod´ın (wildcards). Permiten buscar palabras que tengan alg´un tipo de variaci´on. Las expresiones regulares son un recurso muy potente y, por ello mismo, dif´ıcil de controlar. Crear buenas expresiones regulares requiere pr´actica. 27 / 34 Uso de corpus en LSP
  • 60. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Caracteres comod´ın m´as comunes http://es.wikipedia.org/wiki/Expresi´on regular 28 / 34 Uso de corpus en LSP
  • 61. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Colocaciones Firth 1957 Definici´on Combinaciones de unidades l´exicas con alta frecuencia de uso. Palabras que “co-ocurren” m´as a menudo de lo esperado. Cluster de palabras El m´etodo m´as com´un para extraer colocaciones es mediante el c´alculo de frecuencias de n-gramas. 29 / 34 Uso de corpus en LSP
  • 62. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues n-gramas Conjunto de n palabras que aparecen antes de una palabra dada bigramas: palabra + palabra anterior trigramas: palabra + palabra anterior + palabra anterior tetragramas: palabra + palabra anterior + palabra anterior + palabra anterior 30 / 34 Uso de corpus en LSP
  • 63. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Ejemplo Algunos n-gramas frecuentes1 en El cantar de los cantares de Fray Luis de Le´on Ps Fr Bigramas 5 79 la Esposa 15 39 el Esposo 23 31 su Esposo 46 20 el amor 85 14 la hermosura Ps Fr Trigramas 1 20 de la Esposa 3 15 la Esposa que 10 10 hijas de Jerusal´en 11 10 la palabra hebrea 27 6 ama mi alma 1 Se muestran s´olo los m´as relevantes. Fuente del texto: Biblioteca Virtual Miguel de Cervantes, edici´on de Javier San Jos´e Lera. “Ps” = posici´on; “Fr” = frecuencia. 31 / 34 Uso de corpus en LSP
  • 64. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Utilidad La extracci´on de colocaciones permite ver y analizar grupos de palabras que tienden a aparecer juntas en el corpus. Con ello se puede: Detectar estructuras fijas del corpus, que no sea com´un en la lengua est´andar. Analizar estructuras sint´acticas recurrentes: construcciones tipo adjetivo + nombre, nombre + nombre, verbo + nombre, etc. frecuentes en el corpus LSP. Otros. 32 / 34 Uso de corpus en LSP
  • 65. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Herramientas para el an´alisis de textos AntConc 3.2.1 http://www.antlab.sci.waseda.ac.jp/software.html TextStat http://neon.niederlandistik.fu-berlin.de/en/textstat/ Lista de programas para el an´alisis textual: http://digitalresearchtools.pbworks.com/Text+Analysis+Tools 33 / 34 Uso de corpus en LSP
  • 66. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues ¿Qu´e leer? [Bowker and Pearson, 2002] [Wynne, 2005] [McEnery and Wilson, 2001] 34 / 34 Uso de corpus en LSP
  • 67. Introducci´on Dise˜no y compilaci´on Marcado y anotaci´on de corpus Corpus multiling¨ues Bowker, L. and Pearson, J. (2002). Working with Specialized Language. A practical guide to using corpora. Routledge, London. McEnery, T. and Wilson, A. (2001). Corpus Linguistics. Edinburgh University Press, Edinburgh, 2 edition. Wynne, M., editor (2005). Developing Linguistic Corpora: a Guide to Good Practice. Oxbow Books, Oxford. 34 / 34 Uso de corpus en LSP

×