Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Contribuciones del Procesamiento del Lenguaje Natural a la navegación de corpus digitales

96 views

Published on

Charla en la jornada del 11/12/2017 en la Biblioteca Nacional de España: "La edición digital de textos: estado actual y perspectivas"

Published in: Science
  • Be the first to comment

  • Be the first to like this

Contribuciones del Procesamiento del Lenguaje Natural a la navegación de corpus digitales

  1. 1. Pablo Ruiz Fabo (pablo.ruiz@linhd.uned.es) Laboratorio de Innovación en Humanidades Digitales, UNED Miembro del proyecto POSTDATA - Poetry Standardization and Linked Open Data Contribuciones del Procesamiento del Lenguaje Natural a la navegación de corpus digitales Jornada BNE, 12/2017 1
  2. 2. Plan • Introducción – Exploración de corpus – Procesamiento del Lenguaje Natural – Relación con la edición digital (académica) • Estudios de caso – Earth Negotiations Bulletin – Manuscritos de Jeremy Bentham – Diachronic Spanish Sonnet Corpus 2
  3. 3. Plan • Introducción – Exploración de corpus – Procesamiento del Lenguaje Natural – Relación con la edición digital (académica) • Estudios de caso – Earth Negotiations Bulletin – Manuscritos de Jeremy Bentham – DISCO: Diachronic Spanish Sonnet Corpus 3
  4. 4. Exploración simple de corpus 4
  5. 5. Exploración simple de corpus 5
  6. 6. • Anotaciones automáticas de características lingüísticas • Permiten acotar búsquedas según criterios lingüísticos • Generación automática de metadatos – Palabras clave – Locutores, temas, … Procesamiento del lenguaje natural (PLN) 6
  7. 7. • Edición (digital académica) implica enriquecimiento de los textos mediante trabajo filológico • PLN proporciona anotaciones que pueden ayudar en este proceso • ¿Navegación? Edición digital académica como interfaz ¿PLN + Navegación de corpus + Edición digital ? 7
  8. 8. 8
  9. 9. Plan • Introducción – Exploración de corpus – Procesamiento del Lenguaje Natural – Relación con la edición digital (académica) • Estudios de caso – Earth Negotiations Bulletin – Manuscritos de Jeremy Bentham – DISCO: Diachronic Spanish Sonnet Corpus 9
  10. 10. Estudios de caso 10
  11. 11. Estudios de caso http://apps.lattice.cnrs.fr/prf/ 11
  12. 12. Plan • Introducción – Exploración de corpus – Procesamiento del Lenguaje Natural – Relación con la edición digital (académica) • Estudios de caso – Earth Negotiations Bulletin – Manuscritos de Jeremy Bentham – DISCO: Diachronic Spanish Sonnet Corpus 12
  13. 13. Earth Negotiations Bulletin 13
  14. 14. Earth Negotiations Bulletin • Resúmenes de negociaciones diplomáticas entre países sobre el cambio climático 14
  15. 15. Extracción de relaciones 15 The EU, with NEW ZEALAND and opposed by CHINA, MALAYSIA and BHUTAN, supported including the promotion of natural regeneration within the definitions of "afforestation" and "reforestation." ACTORES PREDICADOS MENSAJES 1 European_Union supported including the promotion of natural regeneration within the definitions of "afforestation" and "reforestation." 2 New_Zealand 3 China ~supported4 Malaysia 5 Bhutan
  16. 16. 16 Navegación por relaciones
  17. 17. 17 Actores Navegación por relaciones
  18. 18. 18 Predicados Navegación por relaciones
  19. 19. 19 Mensajes Navegación por relaciones
  20. 20. 20 Triples (proposiciones) correspondientes a la búsqueda Navegación por relaciones
  21. 21. 21 Oraciones y documentos para las triples Navegación por relaciones
  22. 22. 22 Metadatos extraídos de los mensajes Navegación por relaciones
  23. 23. 23 Metadatos extraídos de los mensajes Navegación por relaciones
  24. 24. 24 Metadatos • Palabras clave • Conceptos genéricos (DBpedia) • Conceptos de dominio (Tesauro) Navegación por relaciones
  25. 25. 25 • Objetivo: Comparar cómo los actores hablan de género (gender) Paso 1: Buscar gender en los mensajes Ejemplo de búsqueda
  26. 26. 26 Paso 2: Examinar palabras clave usadas por diferentes actores en mensajes que hablan de gender Ejemplo de búsqueda
  27. 27. 27 Paso 2: Examinar palabras clave usadas por diferentes actores en mensajes que hablan de gender Ejemplo de búsqueda
  28. 28. 28 • Anotación automática implica tasa de error • Scores de confianza Tasa de error
  29. 29. 29 • Anotación automática implica tasa de error • Scores de confianza Tasa de error
  30. 30. Evaluación • Dos aspectos a evaluar – Las anotaciones automáticas per se (evaluación cuantitativa) – La utilidad de estas, y de su presentación en interfaces, para expertos en el corpus analizado (evaluación cualitativa) 30
  31. 31. Plan • Introducción – Exploración de corpus – Procesamiento del Lenguaje Natural – Relación con la edición digital (académica) • Estudios de caso – Earth Negotiations Bulletin – Manuscritos de Jeremy Bentham – Diachronic Spanish Sonnet Corpus 31
  32. 32. Manuscritos de Jeremy Bentham • Filósofo y reformador inglés (1748-1832) • Corpus inédito • Transcribe Bentham (UCL, Causer & Terras) • Transcripción por voluntarios (crowdsourcing) • Muestra de 17.000 páginas 32
  33. 33. Transcribe Bentham (Causer, Terras et al.) (Causer&Terras) 33
  34. 34. Análisis léxico y visualización • Extracción léxica (palabras clave) • Agrupación según similitud contextual (clustering) • Visualización en forma de red de cooccurrencias 34
  35. 35. 35 Ejemplo de búsquedaMapa del corpus
  36. 36. 36 Noción de interest en el corpus
  37. 37. 37 Ejemplo de búsqueda
  38. 38. Evaluación • Ejercicio de uso de la interfaz y entrevista con un investigador de Bentham 38
  39. 39. 39
  40. 40. Análisis automático de encabalgamiento • ANJA: Automatic Enjambment Analyzer • DISCO: Diachronic Spanish Sonnet Corpus https://sites.google.com/site/ spanishenjambment 40
  41. 41. Encabalgamiento • Desacuerdo entre pausas métricas (versos) y unidades sintácticas (sintagmas) • Se puede detectar con análisis gramatical automático • Mismas tecnologías que las usadas para extraer actores y sus mensajes en Earth Negotiations Bulletin 41
  42. 42. Estudios previos • Quilis, A. (1964). Estructura del encabalgamiento en la métrica española. Madrid. CSIC. 42
  43. 43. Aporte de la automatización • Análisis de gran volumen de textos • Análisis cuantitativo de la evolución del fenómeno en el tiempo 43
  44. 44. Distribución de versos con encabalgamiento por período en sonetos 44 Siglos XV a XVII Siglo XIX Porcentaje de encabalgamientos por par de versos en sonetos
  45. 45. 45 Siglos XV a XVII Siglo XIX Distribución de versos con encabalgamiento por período en sonetos Porcentaje de encabalgamientos por par de versos en sonetos
  46. 46. 46 Siglos XV a XVII Siglo XIX Distribución de versos con encabalgamiento por período en sonetos Porcentaje de encabalgamientos por par de versos en sonetos
  47. 47. Corpus DISCO y evaluación • Atributos de certitud según la fiabilidad de la detección automática para cada tipo de encabalgamiento 47
  48. 48. Resumen • Tecnologías de anotación lingüística automática (PLN) • Integración en interfaces de navegación • Contribución al acceso relevante a contenidos textuales • Utilidad para la edición • Evaluación 48
  49. 49. pablo.ruiz@linhd.uned.es http://www.lattice.cnrs.fr/ Ruiz-Fabo-Pablo http://postdata.linhd.es/ http://linhd.uned.es

×