0
Extracción Automática de Localizaciones Geográficas en   Artículos Periodísticos en     Formato Electrónico    César Garcí...
Índice•   Introducción•   Aspectos Tecnológicos•   Implementación•   Evaluación•   Demostración•   Conclusiones
Introducción• Extracción de localizaciones geográficas   Auge y desarrollo de la utilización de técnicas y herramientas d...
Introducción• Motivación  – Internet  Aumento del consumo de publicaciones a través de su formato     electrónico  – Aume...
Introducción• Mejora de las herramientas   Proporcionar un vocabulario acotado de posibles palabras     clave  Diccionar...
Aspectos Tecnológicos
Aspectos Tecnológicos• Recuperación de la información (IR)  – Búsqueda de documentos, de información dentro de los documen...
Aspectos Tecnológicos• Reconocimiento y Clasificación de entidades   nombradas   – Los sistemas de NERC acometen dos tarea...
Aspectos Tecnológicos• GIR y GIS  – Recuperación de la Información Geográfica (GIR) surge de     la aplicación de las técn...
Aspectos Tecnológicos• Tesauros   – Un tesauro es un vocabulario controlado y estructurado formalmente,      formado por t...
Implementación
Implementación• Arquitectura
ImplementaciónRSS Fead Reader• Programa en Python para leer los ficheros XML/RSS desde un   conjunto de URLs definidas en ...
ImplementaciónHTML Scrapper• Programa en Python que toma el título y cuerpo de las   noticias que se encuentran en los fic...
ImplementaciónSemisupervised NERC•   Dos módulos de NERC que funcionan de forma complementaria     formando un modelo híbr...
ImplementaciónNE Semantic Disambiguator•   Desambiguación del significado de algunas de las NE    detectadas y clasificada...
ImplementaciónTesauro•   Adaptado al contexto en el que pueden aparecer las NE.•   La desambiguación semántica se realiza ...
ImplementaciónTag & Location Extractor•   Programa en Java para extraer las NE de los ficheros de noticias     etiquetados...
ImplementaciónBBDD & Aplicación Web•   Datos de las noticias y las NE de manera estructurada. Gestor de base de     datos ...
Evaluación
EvaluaciónConjunto de datos para entrenamiento y pruebas  – Training Set:  – CoNLL 2002‐Spanish      • Conference on Compu...
EvaluaciónMetodología y métricas de evaluación•   Tres principales técnicas de evaluación:     – MUC     – IREX‐CoNLL     ...
EvaluaciónCriterios de Preselección     – Software de libre distribución     – Buenos resultados en conferencias y congres...
EvaluaciónHerramientas NERC seleccionadas Aprendizaje automático  LBJ NER (Illinois Named Entity Tagger 1.2)            ...
EvaluaciónResultados de la propuesta LBJ NER + gazetteers mejorados + Tesauro sobre Valladolid                           ...
Demostración
Demostración
Demostración
Demostración
Conclusiones
ConclusionesConclusiones     Auge de herramientas y técnicas de representación y posicionamiento       geográfico en el m...
ConclusionesLíneas Futuras     Actualizar nuestra base de noticias automáticamente     Generar tesauros partiendo de dif...
Upcoming SlideShare
Loading in...5
×

EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICOS EN FORMATO ELECTRÓNICO

371

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
371
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
9
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICOS EN FORMATO ELECTRÓNICO"

  1. 1. Extracción Automática de Localizaciones Geográficas en  Artículos Periodísticos en  Formato Electrónico César García Gómez y Jorge Díez Mínguez Telefónica I+D cesargg@tid.es, jdiez25@yahoo.com
  2. 2. Índice• Introducción• Aspectos Tecnológicos• Implementación• Evaluación• Demostración• Conclusiones
  3. 3. Introducción• Extracción de localizaciones geográficas  Auge y desarrollo de la utilización de técnicas y herramientas de  representación y posicionamiento geográfico  Google Maps  La extracción de localizaciones geográficas en documentos de texto (Location Extraction) Caso particular Técnicas de extracción de palabras  Subtarea de y frases clave Reconocimiento y Clasificación de  (Keyword Extraction / Keyphrase Entidades Nombradas Extraction) (NERC) Se basa Técnicas de Inteligencia Artificial: Aprendizaje Automático (Machine Learning) Coincidencia de Patrones (Pattern Matching) Procesamiento del lenguaje natural (Natural Language Process)
  4. 4. Introducción• Motivación – Internet  Aumento del consumo de publicaciones a través de su formato  electrónico – Aumento de la competencia entre este tipo de publicaciones online – Servicios de valor añadido que atraigan un mayor número de lectores  Localización geográfica de las noticias: visualización en un mapa• Ámbito periodístico y local – Sección en la que se encuentre la noticia – La granularidad en la definición de la localización geográfica dependerá de  dónde suceda la noticia (local, provincial, regional, nacional o internacional)
  5. 5. Introducción• Mejora de las herramientas  Proporcionar un vocabulario acotado de posibles palabras  clave  Diccionarios específicos (Gazetteers)  Localidades, calles, organizaciones, personas, etc…  Utilización de técnicas semánticas para confirmar y  completar los resultados obtenidos y resolver posibles  ambigüedades en las entidades encontradas  Tesauros
  6. 6. Aspectos Tecnológicos
  7. 7. Aspectos Tecnológicos• Recuperación de la información (IR) – Búsqueda de documentos, de información dentro de los documentos y de metadatos que describen los documentos – Los Sistemas de Recuperación de Información (SRI), están orientados a la gestión de  información textual desestructurada – Fueron diseñados para superar las limitaciones que presentaban los Sistemas de  Gestión de Base de Datos (SGBD) relacionales para trabajar con información  desestructurada• Extracción de la información (IE) – Tipo de Recuperación de la Información cuyo objetivo es extraer automáticamente  información estructurada a partir de documentos desestructurados – IE no es lo mismo que IR. IE no recupera un conjunto de documentos que pueden ser  relevantes, sino que su objetivo es extraer de los documentos hechos importantes  sobre tipos de eventos, entidades o relaciones preestablecidos de antemano
  8. 8. Aspectos Tecnológicos• Reconocimiento y Clasificación de entidades  nombradas – Los sistemas de NERC acometen dos tareas principales: • Identificar nombres propios en los textos • Clasificar dichos nombres en un conjunto de categorías  predefinidas como son nombres de personas, organizaciones,  localizaciones, expresiones temporales y valores numéricos – En cuanto a su funcionamiento, los sistemas de NERC se  pueden clasificar en tres clases: • Los basados en conocimiento (reglas manuales) que se  fundamentan en el uso de técnicas gramaticales y lingüísticas que  ha diseñado un experto en esa materia • Los que se basan en aprendizaje automático (Machine Learning) y  modelos estadísticos • Los sistemas híbridos que combinan los dos anteriores
  9. 9. Aspectos Tecnológicos• GIR y GIS – Recuperación de la Información Geográfica (GIR) surge de  la aplicación de las técnicas de IR a entidades geográficas – Los GIR se centran en la búsqueda de una pequeña  cantidad de datos semánticos  Una localización o  característica geográfica asociada a un documento Un Sistema de Información  Geográfica (GIS) es una  integración organizada de  hardware, software y datos  geográficos, diseñado para  capturar, almacenar,  manipular, analizar y  desplegar en todas sus formas  la información  geográficamente referenciada
  10. 10. Aspectos Tecnológicos• Tesauros – Un tesauro es un vocabulario controlado y estructurado formalmente,  formado por términos que guardan entre sí relaciones semánticas y  genéricas: de equivalencia, jerárquicas y asociativas – Permite convertir el lenguaje natural de los documentos en un  lenguaje controlado, con el fin de servir tanto para la indización, como  para la recuperación de los documentos• Herramientas de Georreferenciación – La georreferenciación es el posicionamiento en el que se define la  localización de un objeto espacial (representado mediante punto,  vector, área, volumen) en un sistema de coordenadas determinado – Aparición de nuevas herramientas cuya facilidad de uso ha extendido  esta tarea fuera del ámbito técnico existente hasta ahora: Google Maps Google Earth Bing Maps OpenStreetMap
  11. 11. Implementación
  12. 12. Implementación• Arquitectura
  13. 13. ImplementaciónRSS Fead Reader• Programa en Python para leer los ficheros XML/RSS desde un  conjunto de URLs definidas en un fichero de configuración y  obtener de su contenido la URL de cada una de las noticias  completas
  14. 14. ImplementaciónHTML Scrapper• Programa en Python que toma el título y cuerpo de las  noticias que se encuentran en los ficheros html a los que  apuntan las URLs obtenidas del RSS Feed Reader, eliminando  las marcas de formato html y otros contenidos innecesarios  (publicidad, enlaces a otras secciones del periódico, etc.)
  15. 15. ImplementaciónSemisupervised NERC• Dos módulos de NERC que funcionan de forma complementaria  formando un modelo híbrido:• Basado en aprendizaje automático: este módulo es el encargado de  ofrecer el resultado final con el etiquetado de las NE de las noticias• Basado en reglas que servirá para etiquetar automáticamente noticias  que se utilizan para entrenar al primer módulo
  16. 16. ImplementaciónNE Semantic Disambiguator• Desambiguación del significado de algunas de las NE detectadas y clasificadas en el módulo anterior y que son  susceptibles de tener varios significados distintos
  17. 17. ImplementaciónTesauro• Adaptado al contexto en el que pueden aparecer las NE.• La desambiguación semántica se realiza mediante un ranking de los  posibles significados que la NE pueda tener dentro del tesauro  correspondiente. • Se puntuará positivamente que aparezcan en la misma noticia otras  palabras con las que la palabra que queremos desambiguar tenga alguna  relación semántica:•1 para las relaciones altLabel• 1 para las relaciones prefLabel• 0,75 para las relaciones narrower• 0,75 para las relaciones broader• 0,5 para las relaciones related
  18. 18. ImplementaciónTag & Location Extractor• Programa en Java para extraer las NE de los ficheros de noticias  etiquetados, e introducirlas en la BBDD quedando relacionadas cada una  de las noticias con un conjunto de NE y con su tipo correspondiente.• También determina mediante heurísticas sencillas cuál es la localización  principal de la noticia eligiendo entre todas las detectadas
  19. 19. ImplementaciónBBDD & Aplicación Web• Datos de las noticias y las NE de manera estructurada. Gestor de base de  datos SQLite 3• App Web recoge los datos de la BBDD para mostrarlos adecuadamente.  Se estructura en una arquitectura Modelo‐Vista‐Controlador  (MVC).Utiliza Google Maps como herramienta de Georreferenciación
  20. 20. Evaluación
  21. 21. EvaluaciónConjunto de datos para entrenamiento y pruebas – Training Set: – CoNLL 2002‐Spanish • Conference on Computational Natural Language Learning (CoNLL) • Conjunto de más de 300.000 palabras • Más de 20.000 NE (LOC, PER, ORG y MISC) – Selección de artículos de la edición digital de El Norte de Castilla • Noticias extraídas de la edición digital de El Norte de Castilla (2010) • 12 artículos de diferente temática, autores y profundidad de contenidos • 4.742 palabras • 251 NE (LOC, PER, ORG) – Test Set: • Noticias extraídas de la edición digital de El Norte de Castilla (2010) • Formado por 9 artículos de diferente temática • Contiene 1.519 palabras y 78 NE (LOC, PER, ORG)
  22. 22. EvaluaciónMetodología y métricas de evaluación• Tres principales técnicas de evaluación: – MUC – IREX‐CoNLL – ACE Utilizaremos la técnica de evaluación definida por las conferencias IREX y CoNLL, basada  en la métrica MAF(micro‐averaged f‐measure):• Precisión • P = Entidades detectadas correctamente/Entidades detectadas• Cobertura (recall) • R = Entidades detectadas correctamente/Entidades existentes• MAF (también denominado F1) • F1 = 2*P*R/(P+R)
  23. 23. EvaluaciónCriterios de Preselección – Software de libre distribución – Buenos resultados en conferencias y congresos – Curva de aprendizaje suaveHerramientas NERC seleccionadas• Aprendizaje automático – LBJ NER •Sistemas híbridos – Stanford NER •Freeling – Lingpipe• Conocimientos lingüísticos (reglas) – CAGEclass – DRAMNERI – LT‐TTT2
  24. 24. EvaluaciónHerramientas NERC seleccionadas Aprendizaje automático  LBJ NER (Illinois Named Entity Tagger 1.2) LBJ NER: Entrenamiento CoNLL2002 y gazetteers locales Reglas  Freeling (Parte de reglas) Freeling: Sin entrenamiento
  25. 25. EvaluaciónResultados de la propuesta LBJ NER + gazetteers mejorados + Tesauro sobre Valladolid ‘ LBJNER con entrenamiento CoNLL2002 y gazetteers mejorados más la utilización del tesauro sobre Valladolid Mejoras obtenidas (sobre F1) • GLOBAL (todas las NE)  20% • PER  17% • ORG  31% • LOC  7%
  26. 26. Demostración
  27. 27. Demostración
  28. 28. Demostración
  29. 29. Demostración
  30. 30. Conclusiones
  31. 31. ConclusionesConclusiones  Auge de herramientas y técnicas de representación y posicionamiento  geográfico en el mundo de Internet  Desarrollo de herramientas NERC  Conferencias: MUC, IREX, CoNLL, ACE,  etc…  Su utilización en ámbitos acotados (periodismo, localización geográfica)  permite mejoras en el rendimiento  Mejoras ampliando los gazetteers con NE particulares de la zona y utilizando  técnicas semánticas (tesauros) para ratificar resultados y resolver  ambigüedades  Mejoras globales en parámetros como F1  20% sobre un test de prueba  formado por artículos de “El Norte de Castilla”  Mejoras obtenidas en el caso de las NE referentes a localizaciones (LOC)  7%  El resultado final  Aplicación web que facilita la lectura de un periódico  digital online, identificando visualmente la localización de las noticias a partir  del texto y mostrándola en un mapa
  32. 32. ConclusionesLíneas Futuras  Actualizar nuestra base de noticias automáticamente  Generar tesauros partiendo de diferentes categorías (deportes, economía,  sociedad, …)  Diferentes secciones de la publicación  Estudio de la manera de asignar las diferentes puntuaciones que se otorgan a  las NE detectadas por la herramienta y contenidas en el tesauro  Valoración de cuáles son las más relevantes  Valorar la utilización de nuevas herramientas NERC  Herramientas basadas en reglas  Actualizar gazetteers utilizados (listado de  nombres y apellidos, organizaciones institucionales, empresas, asociaciones,  localidades, nuevas calles, etc.…)  Desarrollo de un conjunto de datos de entrenamiento partiendo de artículos  de la publicación online  Reglas para elegir la localización final de la noticia  Incorporar nuevas reglas  que permitan identificar recorridos, rutas, agrupaciones de calles o barrios  Funcionalidades en la aplicación web  Consultar noticias por localización,  fecha o para una zona seleccionada en el mapa
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×