• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICOS EN FORMATO ELECTRÓNICO
 

EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICOS EN FORMATO ELECTRÓNICO

on

  • 586 views

 

Statistics

Views

Total Views
586
Views on SlideShare
586
Embed Views
0

Actions

Likes
0
Downloads
8
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICOS EN FORMATO ELECTRÓNICO EXTRACCIÓN AUTOMÁTICA DE LOCALIZACIONES GEOGRÁFICAS EN ARTÍCULOS PERIODÍSTICOS EN FORMATO ELECTRÓNICO Presentation Transcript

    • Extracción Automática de Localizaciones Geográficas en  Artículos Periodísticos en  Formato Electrónico César García Gómez y Jorge Díez Mínguez Telefónica I+D cesargg@tid.es, jdiez25@yahoo.com
    • Índice• Introducción• Aspectos Tecnológicos• Implementación• Evaluación• Demostración• Conclusiones
    • Introducción• Extracción de localizaciones geográficas  Auge y desarrollo de la utilización de técnicas y herramientas de  representación y posicionamiento geográfico  Google Maps  La extracción de localizaciones geográficas en documentos de texto (Location Extraction) Caso particular Técnicas de extracción de palabras  Subtarea de y frases clave Reconocimiento y Clasificación de  (Keyword Extraction / Keyphrase Entidades Nombradas Extraction) (NERC) Se basa Técnicas de Inteligencia Artificial: Aprendizaje Automático (Machine Learning) Coincidencia de Patrones (Pattern Matching) Procesamiento del lenguaje natural (Natural Language Process)
    • Introducción• Motivación – Internet  Aumento del consumo de publicaciones a través de su formato  electrónico – Aumento de la competencia entre este tipo de publicaciones online – Servicios de valor añadido que atraigan un mayor número de lectores  Localización geográfica de las noticias: visualización en un mapa• Ámbito periodístico y local – Sección en la que se encuentre la noticia – La granularidad en la definición de la localización geográfica dependerá de  dónde suceda la noticia (local, provincial, regional, nacional o internacional)
    • Introducción• Mejora de las herramientas  Proporcionar un vocabulario acotado de posibles palabras  clave  Diccionarios específicos (Gazetteers)  Localidades, calles, organizaciones, personas, etc…  Utilización de técnicas semánticas para confirmar y  completar los resultados obtenidos y resolver posibles  ambigüedades en las entidades encontradas  Tesauros
    • Aspectos Tecnológicos
    • Aspectos Tecnológicos• Recuperación de la información (IR) – Búsqueda de documentos, de información dentro de los documentos y de metadatos que describen los documentos – Los Sistemas de Recuperación de Información (SRI), están orientados a la gestión de  información textual desestructurada – Fueron diseñados para superar las limitaciones que presentaban los Sistemas de  Gestión de Base de Datos (SGBD) relacionales para trabajar con información  desestructurada• Extracción de la información (IE) – Tipo de Recuperación de la Información cuyo objetivo es extraer automáticamente  información estructurada a partir de documentos desestructurados – IE no es lo mismo que IR. IE no recupera un conjunto de documentos que pueden ser  relevantes, sino que su objetivo es extraer de los documentos hechos importantes  sobre tipos de eventos, entidades o relaciones preestablecidos de antemano
    • Aspectos Tecnológicos• Reconocimiento y Clasificación de entidades  nombradas – Los sistemas de NERC acometen dos tareas principales: • Identificar nombres propios en los textos • Clasificar dichos nombres en un conjunto de categorías  predefinidas como son nombres de personas, organizaciones,  localizaciones, expresiones temporales y valores numéricos – En cuanto a su funcionamiento, los sistemas de NERC se  pueden clasificar en tres clases: • Los basados en conocimiento (reglas manuales) que se  fundamentan en el uso de técnicas gramaticales y lingüísticas que  ha diseñado un experto en esa materia • Los que se basan en aprendizaje automático (Machine Learning) y  modelos estadísticos • Los sistemas híbridos que combinan los dos anteriores
    • Aspectos Tecnológicos• GIR y GIS – Recuperación de la Información Geográfica (GIR) surge de  la aplicación de las técnicas de IR a entidades geográficas – Los GIR se centran en la búsqueda de una pequeña  cantidad de datos semánticos  Una localización o  característica geográfica asociada a un documento Un Sistema de Información  Geográfica (GIS) es una  integración organizada de  hardware, software y datos  geográficos, diseñado para  capturar, almacenar,  manipular, analizar y  desplegar en todas sus formas  la información  geográficamente referenciada
    • Aspectos Tecnológicos• Tesauros – Un tesauro es un vocabulario controlado y estructurado formalmente,  formado por términos que guardan entre sí relaciones semánticas y  genéricas: de equivalencia, jerárquicas y asociativas – Permite convertir el lenguaje natural de los documentos en un  lenguaje controlado, con el fin de servir tanto para la indización, como  para la recuperación de los documentos• Herramientas de Georreferenciación – La georreferenciación es el posicionamiento en el que se define la  localización de un objeto espacial (representado mediante punto,  vector, área, volumen) en un sistema de coordenadas determinado – Aparición de nuevas herramientas cuya facilidad de uso ha extendido  esta tarea fuera del ámbito técnico existente hasta ahora: Google Maps Google Earth Bing Maps OpenStreetMap
    • Implementación
    • Implementación• Arquitectura
    • ImplementaciónRSS Fead Reader• Programa en Python para leer los ficheros XML/RSS desde un  conjunto de URLs definidas en un fichero de configuración y  obtener de su contenido la URL de cada una de las noticias  completas
    • ImplementaciónHTML Scrapper• Programa en Python que toma el título y cuerpo de las  noticias que se encuentran en los ficheros html a los que  apuntan las URLs obtenidas del RSS Feed Reader, eliminando  las marcas de formato html y otros contenidos innecesarios  (publicidad, enlaces a otras secciones del periódico, etc.)
    • ImplementaciónSemisupervised NERC• Dos módulos de NERC que funcionan de forma complementaria  formando un modelo híbrido:• Basado en aprendizaje automático: este módulo es el encargado de  ofrecer el resultado final con el etiquetado de las NE de las noticias• Basado en reglas que servirá para etiquetar automáticamente noticias  que se utilizan para entrenar al primer módulo
    • ImplementaciónNE Semantic Disambiguator• Desambiguación del significado de algunas de las NE detectadas y clasificadas en el módulo anterior y que son  susceptibles de tener varios significados distintos
    • ImplementaciónTesauro• Adaptado al contexto en el que pueden aparecer las NE.• La desambiguación semántica se realiza mediante un ranking de los  posibles significados que la NE pueda tener dentro del tesauro  correspondiente. • Se puntuará positivamente que aparezcan en la misma noticia otras  palabras con las que la palabra que queremos desambiguar tenga alguna  relación semántica:•1 para las relaciones altLabel• 1 para las relaciones prefLabel• 0,75 para las relaciones narrower• 0,75 para las relaciones broader• 0,5 para las relaciones related
    • ImplementaciónTag & Location Extractor• Programa en Java para extraer las NE de los ficheros de noticias  etiquetados, e introducirlas en la BBDD quedando relacionadas cada una  de las noticias con un conjunto de NE y con su tipo correspondiente.• También determina mediante heurísticas sencillas cuál es la localización  principal de la noticia eligiendo entre todas las detectadas
    • ImplementaciónBBDD & Aplicación Web• Datos de las noticias y las NE de manera estructurada. Gestor de base de  datos SQLite 3• App Web recoge los datos de la BBDD para mostrarlos adecuadamente.  Se estructura en una arquitectura Modelo‐Vista‐Controlador  (MVC).Utiliza Google Maps como herramienta de Georreferenciación
    • Evaluación
    • EvaluaciónConjunto de datos para entrenamiento y pruebas – Training Set: – CoNLL 2002‐Spanish • Conference on Computational Natural Language Learning (CoNLL) • Conjunto de más de 300.000 palabras • Más de 20.000 NE (LOC, PER, ORG y MISC) – Selección de artículos de la edición digital de El Norte de Castilla • Noticias extraídas de la edición digital de El Norte de Castilla (2010) • 12 artículos de diferente temática, autores y profundidad de contenidos • 4.742 palabras • 251 NE (LOC, PER, ORG) – Test Set: • Noticias extraídas de la edición digital de El Norte de Castilla (2010) • Formado por 9 artículos de diferente temática • Contiene 1.519 palabras y 78 NE (LOC, PER, ORG)
    • EvaluaciónMetodología y métricas de evaluación• Tres principales técnicas de evaluación: – MUC – IREX‐CoNLL – ACE Utilizaremos la técnica de evaluación definida por las conferencias IREX y CoNLL, basada  en la métrica MAF(micro‐averaged f‐measure):• Precisión • P = Entidades detectadas correctamente/Entidades detectadas• Cobertura (recall) • R = Entidades detectadas correctamente/Entidades existentes• MAF (también denominado F1) • F1 = 2*P*R/(P+R)
    • EvaluaciónCriterios de Preselección – Software de libre distribución – Buenos resultados en conferencias y congresos – Curva de aprendizaje suaveHerramientas NERC seleccionadas• Aprendizaje automático – LBJ NER •Sistemas híbridos – Stanford NER •Freeling – Lingpipe• Conocimientos lingüísticos (reglas) – CAGEclass – DRAMNERI – LT‐TTT2
    • EvaluaciónHerramientas NERC seleccionadas Aprendizaje automático  LBJ NER (Illinois Named Entity Tagger 1.2) LBJ NER: Entrenamiento CoNLL2002 y gazetteers locales Reglas  Freeling (Parte de reglas) Freeling: Sin entrenamiento
    • EvaluaciónResultados de la propuesta LBJ NER + gazetteers mejorados + Tesauro sobre Valladolid ‘ LBJNER con entrenamiento CoNLL2002 y gazetteers mejorados más la utilización del tesauro sobre Valladolid Mejoras obtenidas (sobre F1) • GLOBAL (todas las NE)  20% • PER  17% • ORG  31% • LOC  7%
    • Demostración
    • Demostración
    • Demostración
    • Demostración
    • Conclusiones
    • ConclusionesConclusiones  Auge de herramientas y técnicas de representación y posicionamiento  geográfico en el mundo de Internet  Desarrollo de herramientas NERC  Conferencias: MUC, IREX, CoNLL, ACE,  etc…  Su utilización en ámbitos acotados (periodismo, localización geográfica)  permite mejoras en el rendimiento  Mejoras ampliando los gazetteers con NE particulares de la zona y utilizando  técnicas semánticas (tesauros) para ratificar resultados y resolver  ambigüedades  Mejoras globales en parámetros como F1  20% sobre un test de prueba  formado por artículos de “El Norte de Castilla”  Mejoras obtenidas en el caso de las NE referentes a localizaciones (LOC)  7%  El resultado final  Aplicación web que facilita la lectura de un periódico  digital online, identificando visualmente la localización de las noticias a partir  del texto y mostrándola en un mapa
    • ConclusionesLíneas Futuras  Actualizar nuestra base de noticias automáticamente  Generar tesauros partiendo de diferentes categorías (deportes, economía,  sociedad, …)  Diferentes secciones de la publicación  Estudio de la manera de asignar las diferentes puntuaciones que se otorgan a  las NE detectadas por la herramienta y contenidas en el tesauro  Valoración de cuáles son las más relevantes  Valorar la utilización de nuevas herramientas NERC  Herramientas basadas en reglas  Actualizar gazetteers utilizados (listado de  nombres y apellidos, organizaciones institucionales, empresas, asociaciones,  localidades, nuevas calles, etc.…)  Desarrollo de un conjunto de datos de entrenamiento partiendo de artículos  de la publicación online  Reglas para elegir la localización final de la noticia  Incorporar nuevas reglas  que permitan identificar recorridos, rutas, agrupaciones de calles o barrios  Funcionalidades en la aplicación web  Consultar noticias por localización,  fecha o para una zona seleccionada en el mapa