SlideShare a Scribd company logo
1 of 32
Download to read offline
Extracción Automática de 
Localizaciones Geográficas en 
  Artículos Periodísticos en 
    Formato Electrónico
    César García Gómez y Jorge Díez Mínguez
                 Telefónica I+D
      cesargg@tid.es, jdiez25@yahoo.com
Índice
•   Introducción
•   Aspectos Tecnológicos
•   Implementación
•   Evaluación
•   Demostración
•   Conclusiones
Introducción
• Extracción de localizaciones geográficas
   Auge y desarrollo de la utilización de técnicas y herramientas de 
    representación y posicionamiento geográfico  Google Maps
     La extracción de localizaciones geográficas en documentos de texto
                      (Location Extraction)
                             Caso particular
                                                                   Técnicas de extracción de palabras 
                                                     Subtarea de
                                                                             y frases clave
              Reconocimiento y Clasificación de                     (Keyword Extraction / Keyphrase
              Entidades Nombradas                                             Extraction)
                            (NERC)
                                Se basa

              Técnicas de Inteligencia Artificial:

                  Aprendizaje Automático (Machine Learning)
                 Coincidencia de Patrones (Pattern Matching)
         Procesamiento del lenguaje natural (Natural Language Process)
Introducción
• Motivación
  – Internet  Aumento del consumo de publicaciones a través de su formato 
    electrónico
  – Aumento de la competencia entre este tipo de publicaciones online
  – Servicios de valor añadido que atraigan un mayor número de lectores 
    Localización geográfica de las noticias: visualización en un mapa


• Ámbito periodístico y local
   – Sección en la que se encuentre la noticia
   – La granularidad en la definición de la localización geográfica dependerá de 
     dónde suceda la noticia (local, provincial, regional, nacional o internacional)
Introducción
• Mejora de las herramientas
   Proporcionar un vocabulario acotado de posibles palabras 
    clave  Diccionarios específicos (Gazetteers) 
    Localidades, calles, organizaciones, personas, etc…
   Utilización de técnicas semánticas para confirmar y 
    completar los resultados obtenidos y resolver posibles 
    ambigüedades en las entidades encontradas  Tesauros
Aspectos Tecnológicos
Aspectos Tecnológicos
• Recuperación de la información (IR)
  – Búsqueda de documentos, de información dentro de los documentos y de metadatos
    que describen los documentos
  – Los Sistemas de Recuperación de Información (SRI), están orientados a la gestión de 
    información textual desestructurada
  – Fueron diseñados para superar las limitaciones que presentaban los Sistemas de 
    Gestión de Base de Datos (SGBD) relacionales para trabajar con información 
    desestructurada

• Extracción de la información (IE)
  – Tipo de Recuperación de la Información cuyo objetivo es extraer automáticamente 
    información estructurada a partir de documentos desestructurados
  – IE no es lo mismo que IR. IE no recupera un conjunto de documentos que pueden ser 
    relevantes, sino que su objetivo es extraer de los documentos hechos importantes 
    sobre tipos de eventos, entidades o relaciones preestablecidos de antemano
Aspectos Tecnológicos
• Reconocimiento y Clasificación de entidades 
  nombradas
   – Los sistemas de NERC acometen dos tareas principales:
      • Identificar nombres propios en los textos
      • Clasificar dichos nombres en un conjunto de categorías 
        predefinidas como son nombres de personas, organizaciones, 
        localizaciones, expresiones temporales y valores numéricos
    – En cuanto a su funcionamiento, los sistemas de NERC se 
      pueden clasificar en tres clases:
        • Los basados en conocimiento (reglas manuales) que se 
          fundamentan en el uso de técnicas gramaticales y lingüísticas que 
          ha diseñado un experto en esa materia
        • Los que se basan en aprendizaje automático (Machine Learning) y 
          modelos estadísticos
        • Los sistemas híbridos que combinan los dos anteriores
Aspectos Tecnológicos
• GIR y GIS
  – Recuperación de la Información Geográfica (GIR) surge de 
    la aplicación de las técnicas de IR a entidades geográficas
  – Los GIR se centran en la búsqueda de una pequeña 
    cantidad de datos semánticos  Una localización o 
    característica geográfica asociada a un documento
   Un Sistema de Información 
   Geográfica (GIS) es una 
   integración organizada de 
   hardware, software y datos 
   geográficos, diseñado para 
   capturar, almacenar, 
   manipular, analizar y 
   desplegar en todas sus formas 
   la información 
   geográficamente referenciada
Aspectos Tecnológicos
• Tesauros
   – Un tesauro es un vocabulario controlado y estructurado formalmente, 
     formado por términos que guardan entre sí relaciones semánticas y 
     genéricas: de equivalencia, jerárquicas y asociativas
   – Permite convertir el lenguaje natural de los documentos en un 
     lenguaje controlado, con el fin de servir tanto para la indización, como 
     para la recuperación de los documentos
• Herramientas de Georreferenciación
   – La georreferenciación es el posicionamiento en el que se define la 
     localización de un objeto espacial (representado mediante punto, 
     vector, área, volumen) en un sistema de coordenadas determinado
   – Aparición de nuevas herramientas cuya facilidad de uso ha extendido 
     esta tarea fuera del ámbito técnico existente hasta ahora:


                               Google Maps
                               Google Earth
                                Bing Maps
                              OpenStreetMap
Implementación
Implementación
• Arquitectura
Implementación
RSS Fead Reader
• Programa en Python para leer los ficheros XML/RSS desde un 
  conjunto de URLs definidas en un fichero de configuración y 
  obtener de su contenido la URL de cada una de las noticias 
  completas
Implementación
HTML Scrapper
• Programa en Python que toma el título y cuerpo de las 
  noticias que se encuentran en los ficheros html a los que 
  apuntan las URLs obtenidas del RSS Feed Reader, eliminando 
  las marcas de formato html y otros contenidos innecesarios 
  (publicidad, enlaces a otras secciones del periódico, etc.)
Implementación
Semisupervised NERC
•   Dos módulos de NERC que funcionan de forma complementaria 
    formando un modelo híbrido:
•   Basado en aprendizaje automático: este módulo es el encargado de 
    ofrecer el resultado final con el etiquetado de las NE de las noticias
•   Basado en reglas que servirá para etiquetar automáticamente noticias 
    que se utilizan para entrenar al primer módulo
Implementación
NE Semantic Disambiguator
•   Desambiguación del significado de algunas de las NE
    detectadas y clasificadas en el módulo anterior y que son 
    susceptibles de tener varios significados distintos
Implementación
Tesauro
•   Adaptado al contexto en el que pueden aparecer las NE.
•   La desambiguación semántica se realiza mediante un ranking de los 
    posibles significados que la NE pueda tener dentro del tesauro 
    correspondiente. 
•   Se puntuará positivamente que aparezcan en la misma noticia otras 
    palabras con las que la palabra que queremos desambiguar tenga alguna 
    relación semántica:
•1 para las relaciones altLabel
• 1 para las relaciones prefLabel
• 0,75 para las relaciones narrower
• 0,75 para las relaciones broader
• 0,5 para las relaciones related
Implementación
Tag & Location Extractor
•   Programa en Java para extraer las NE de los ficheros de noticias 
    etiquetados, e introducirlas en la BBDD quedando relacionadas cada una 
    de las noticias con un conjunto de NE y con su tipo correspondiente.
•   También determina mediante heurísticas sencillas cuál es la localización 
    principal de la noticia eligiendo entre todas las detectadas
Implementación
BBDD & Aplicación Web
•   Datos de las noticias y las NE de manera estructurada. Gestor de base de 
    datos SQLite 3
•   App Web recoge los datos de la BBDD para mostrarlos adecuadamente. 
    Se estructura en una arquitectura Modelo‐Vista‐Controlador 
    (MVC).Utiliza Google Maps como herramienta de Georreferenciación
Evaluación
Evaluación
Conjunto de datos para entrenamiento y pruebas
  – Training Set:
  – CoNLL 2002‐Spanish
      • Conference on Computational Natural Language Learning (CoNLL)
      • Conjunto de más de 300.000 palabras
      • Más de 20.000 NE (LOC, PER, ORG y MISC)
  – Selección de artículos de la edición digital de El Norte de Castilla
      •   Noticias extraídas de la edición digital de El Norte de Castilla (2010)
      •   12 artículos de diferente temática, autores y profundidad de contenidos
      •   4.742 palabras
      •   251 NE (LOC, PER, ORG)
  – Test Set:
      • Noticias extraídas de la edición digital de El Norte de Castilla (2010)
      • Formado por 9 artículos de diferente temática
      • Contiene 1.519 palabras y 78 NE (LOC, PER, ORG)
Evaluación
Metodología y métricas de evaluación
•   Tres principales técnicas de evaluación:
     – MUC
     – IREX‐CoNLL
     – ACE

        Utilizaremos la técnica de evaluación definida por las conferencias IREX y CoNLL, basada 
        en la métrica MAF(micro‐averaged f‐measure):
•   Precisión

          • P = Entidades detectadas correctamente/Entidades detectadas

•   Cobertura (recall)

          • R = Entidades detectadas correctamente/Entidades existentes

•   MAF (también denominado F1)

          • F1 = 2*P*R/(P+R)
Evaluación
Criterios de Preselección
     – Software de libre distribución
     – Buenos resultados en conferencias y congresos
     – Curva de aprendizaje suave
Herramientas NERC seleccionadas
•   Aprendizaje automático
     – LBJ NER
                                        •Sistemas híbridos
     – Stanford NER
                                             •Freeling
     – Lingpipe
•   Conocimientos lingüísticos (reglas)
     – CAGEclass
     – DRAMNERI
     – LT‐TTT2
Evaluación
Herramientas NERC seleccionadas
 Aprendizaje automático  LBJ NER (Illinois Named Entity Tagger 1.2)




                      LBJ NER: Entrenamiento CoNLL2002 y gazetteers locales


 Reglas  Freeling (Parte de reglas)




                         Freeling: Sin entrenamiento
Evaluación
Resultados de la propuesta
 LBJ NER + gazetteers mejorados + Tesauro sobre Valladolid
                                                                                                     ‘




   LBJNER con entrenamiento CoNLL2002 y gazetteers mejorados más la utilización del tesauro sobre Valladolid



 Mejoras obtenidas (sobre F1)
          •   GLOBAL (todas las NE)  20%
          •   PER  17%
          •   ORG  31%
          •   LOC  7%
Demostración
Demostración
Demostración
Demostración
Conclusiones
Conclusiones
Conclusiones
     Auge de herramientas y técnicas de representación y posicionamiento 
      geográfico en el mundo de Internet
     Desarrollo de herramientas NERC  Conferencias: MUC, IREX, CoNLL, ACE, 
      etc…
     Su utilización en ámbitos acotados (periodismo, localización geográfica) 
      permite mejoras en el rendimiento
     Mejoras ampliando los gazetteers con NE particulares de la zona y utilizando 
      técnicas semánticas (tesauros) para ratificar resultados y resolver 
      ambigüedades
     Mejoras globales en parámetros como F1  20% sobre un test de prueba 
      formado por artículos de “El Norte de Castilla”
     Mejoras obtenidas en el caso de las NE referentes a localizaciones (LOC)  7%
     El resultado final  Aplicación web que facilita la lectura de un periódico 
      digital online, identificando visualmente la localización de las noticias a partir 
      del texto y mostrándola en un mapa
Conclusiones
Líneas Futuras
     Actualizar nuestra base de noticias automáticamente
     Generar tesauros partiendo de diferentes categorías (deportes, economía, 
      sociedad, …)  Diferentes secciones de la publicación
     Estudio de la manera de asignar las diferentes puntuaciones que se otorgan a 
      las NE detectadas por la herramienta y contenidas en el tesauro  Valoración
      de cuáles son las más relevantes
     Valorar la utilización de nuevas herramientas NERC
     Herramientas basadas en reglas  Actualizar gazetteers utilizados (listado de 
      nombres y apellidos, organizaciones institucionales, empresas, asociaciones, 
      localidades, nuevas calles, etc.…)
     Desarrollo de un conjunto de datos de entrenamiento partiendo de artículos 
      de la publicación online
     Reglas para elegir la localización final de la noticia  Incorporar nuevas reglas 
      que permitan identificar recorridos, rutas, agrupaciones de calles o barrios
     Funcionalidades en la aplicación web  Consultar noticias por localización, 
      fecha o para una zona seleccionada en el mapa

More Related Content

Viewers also liked

Exposición Gran Misión Vida Venezuela
Exposición Gran Misión Vida VenezuelaExposición Gran Misión Vida Venezuela
Exposición Gran Misión Vida VenezuelaEzequiel Osorio Aponte
 
Diseño de un sistema gps diferencial power point
Diseño de un sistema gps diferencial power pointDiseño de un sistema gps diferencial power point
Diseño de un sistema gps diferencial power pointCarlos Querales
 
Exposicion mision a toda vida venezuela
Exposicion mision a toda vida venezuelaExposicion mision a toda vida venezuela
Exposicion mision a toda vida venezuelaFrank Sanchez
 
La seguridad ciudadana en el perú
La seguridad ciudadana en el perúLa seguridad ciudadana en el perú
La seguridad ciudadana en el perúLucesita Tacanga
 
Seguridad ciudadana.
Seguridad ciudadana. Seguridad ciudadana.
Seguridad ciudadana. alvisegperu
 
I UNIDAD CÍVICA: Construyamos comunidades seguras.
I UNIDAD CÍVICA: Construyamos comunidades seguras.I UNIDAD CÍVICA: Construyamos comunidades seguras.
I UNIDAD CÍVICA: Construyamos comunidades seguras.Gustavo Bolaños
 
Manual inspeccion plantas
Manual inspeccion plantasManual inspeccion plantas
Manual inspeccion plantasvasotermi
 
La cadena de valor de la Seguridad Ciudadana y su enfoque local
La cadena de valor de la Seguridad Ciudadana y su enfoque localLa cadena de valor de la Seguridad Ciudadana y su enfoque local
La cadena de valor de la Seguridad Ciudadana y su enfoque localDimitri Nicolás Senmache Artola
 

Viewers also liked (20)

6.por la calle del pueblo
6.por la calle del pueblo6.por la calle del pueblo
6.por la calle del pueblo
 
2.orden en la sala
2.orden en la sala2.orden en la sala
2.orden en la sala
 
Exposición Gran Misión Vida Venezuela
Exposición Gran Misión Vida VenezuelaExposición Gran Misión Vida Venezuela
Exposición Gran Misión Vida Venezuela
 
Diseño de un sistema gps diferencial power point
Diseño de un sistema gps diferencial power pointDiseño de un sistema gps diferencial power point
Diseño de un sistema gps diferencial power point
 
El porsche 911
El porsche 911El porsche 911
El porsche 911
 
La Seguridad Ciudadana
La Seguridad CiudadanaLa Seguridad Ciudadana
La Seguridad Ciudadana
 
9.gente para servir
9.gente para servir9.gente para servir
9.gente para servir
 
La Seguridad Ciudadana.
La Seguridad Ciudadana.La Seguridad Ciudadana.
La Seguridad Ciudadana.
 
Exposicion mision a toda vida venezuela
Exposicion mision a toda vida venezuelaExposicion mision a toda vida venezuela
Exposicion mision a toda vida venezuela
 
La seguridad ciudadana ppt
La seguridad ciudadana pptLa seguridad ciudadana ppt
La seguridad ciudadana ppt
 
La seguridad ciudadana en el perú
La seguridad ciudadana en el perúLa seguridad ciudadana en el perú
La seguridad ciudadana en el perú
 
Seguridad ciudadana
Seguridad ciudadanaSeguridad ciudadana
Seguridad ciudadana
 
Seguridad ciudadana.
Seguridad ciudadana. Seguridad ciudadana.
Seguridad ciudadana.
 
1.3 la seguridad ciudadana en el perú
1.3  la seguridad ciudadana en el perú1.3  la seguridad ciudadana en el perú
1.3 la seguridad ciudadana en el perú
 
I UNIDAD CÍVICA: Construyamos comunidades seguras.
I UNIDAD CÍVICA: Construyamos comunidades seguras.I UNIDAD CÍVICA: Construyamos comunidades seguras.
I UNIDAD CÍVICA: Construyamos comunidades seguras.
 
Manual inspeccion plantas
Manual inspeccion plantasManual inspeccion plantas
Manual inspeccion plantas
 
La cadena de valor de la Seguridad Ciudadana y su enfoque local
La cadena de valor de la Seguridad Ciudadana y su enfoque localLa cadena de valor de la Seguridad Ciudadana y su enfoque local
La cadena de valor de la Seguridad Ciudadana y su enfoque local
 
Seguridad ciudadana
Seguridad ciudadanaSeguridad ciudadana
Seguridad ciudadana
 
SEGURIDAD CIUDADANA
SEGURIDAD CIUDADANASEGURIDAD CIUDADANA
SEGURIDAD CIUDADANA
 
Seguridad ciudadana
Seguridad ciudadanaSeguridad ciudadana
Seguridad ciudadana
 

Similar to Extracción de Localizaciones Geográficas en Artículos Periodísticos

Presentacion De Programa De Formacion
Presentacion De Programa De FormacionPresentacion De Programa De Formacion
Presentacion De Programa De Formacionanderwrt
 
Seminario taller VT Módulo 4
Seminario taller VT Módulo 4Seminario taller VT Módulo 4
Seminario taller VT Módulo 4amatiz
 
Jessika parica. Fundamentos y métodos de análisis de los requerimientos.
Jessika parica. Fundamentos y métodos de análisis de los requerimientos.Jessika parica. Fundamentos y métodos de análisis de los requerimientos.
Jessika parica. Fundamentos y métodos de análisis de los requerimientos.Jessika Parica
 
Herramienta case
Herramienta caseHerramienta case
Herramienta caseFSILSCA
 
FUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOS Raimon Koudsi
FUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOS Raimon KoudsiFUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOS Raimon Koudsi
FUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOS Raimon KoudsiRaimonKoudsi
 
Actividad analisis modulo 1
Actividad analisis modulo 1Actividad analisis modulo 1
Actividad analisis modulo 1Julian Castro
 
Actividad Analisis Modulo 1
Actividad Analisis Modulo 1Actividad Analisis Modulo 1
Actividad Analisis Modulo 1Fabian Camargo
 
Clasificación de las metodologías de desarrollo de software
Clasificación de las metodologías de desarrollo de softwareClasificación de las metodologías de desarrollo de software
Clasificación de las metodologías de desarrollo de softwareElvisAR
 

Similar to Extracción de Localizaciones Geográficas en Artículos Periodísticos (20)

Presentacion De Programa De Formacion
Presentacion De Programa De FormacionPresentacion De Programa De Formacion
Presentacion De Programa De Formacion
 
Diseño de sistemas
Diseño de sistemasDiseño de sistemas
Diseño de sistemas
 
Diseño de sistemas
Diseño de sistemasDiseño de sistemas
Diseño de sistemas
 
ADSI
ADSIADSI
ADSI
 
Seminario taller VT Módulo 4
Seminario taller VT Módulo 4Seminario taller VT Módulo 4
Seminario taller VT Módulo 4
 
Profe edinson
Profe edinsonProfe edinson
Profe edinson
 
Jessika parica. Fundamentos y métodos de análisis de los requerimientos.
Jessika parica. Fundamentos y métodos de análisis de los requerimientos.Jessika parica. Fundamentos y métodos de análisis de los requerimientos.
Jessika parica. Fundamentos y métodos de análisis de los requerimientos.
 
Analisis de sistema
Analisis de sistemaAnalisis de sistema
Analisis de sistema
 
Actividad análisis modulo 1
Actividad análisis modulo 1Actividad análisis modulo 1
Actividad análisis modulo 1
 
Herramienta case
Herramienta caseHerramienta case
Herramienta case
 
FUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOS Raimon Koudsi
FUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOS Raimon KoudsiFUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOS Raimon Koudsi
FUNDAMENTOS Y MÉTODOS DE ANÁLISIS DE REQUERIMIENTOS Raimon Koudsi
 
Analisis y diseno_oo
Analisis y diseno_ooAnalisis y diseno_oo
Analisis y diseno_oo
 
Actividad analisis modulo 1
Actividad analisis modulo 1Actividad analisis modulo 1
Actividad analisis modulo 1
 
Actividad Analisis Modulo 1
Actividad Analisis Modulo 1Actividad Analisis Modulo 1
Actividad Analisis Modulo 1
 
Modulo 1
Modulo 1Modulo 1
Modulo 1
 
Trabajo Modulo 1
Trabajo Modulo 1Trabajo Modulo 1
Trabajo Modulo 1
 
Sistemas operativos i li
Sistemas operativos i liSistemas operativos i li
Sistemas operativos i li
 
Sistemas operativos i li
Sistemas operativos i liSistemas operativos i li
Sistemas operativos i li
 
Plan de estudios 5to
Plan de estudios 5toPlan de estudios 5to
Plan de estudios 5to
 
Clasificación de las metodologías de desarrollo de software
Clasificación de las metodologías de desarrollo de softwareClasificación de las metodologías de desarrollo de software
Clasificación de las metodologías de desarrollo de software
 

More from TELECOM I+D 2011

PERFORMANCE EVALUATION OF A DIRECT SAMPLING GNSS RECEIVER
PERFORMANCE EVALUATION OF A DIRECT SAMPLING GNSS RECEIVERPERFORMANCE EVALUATION OF A DIRECT SAMPLING GNSS RECEIVER
PERFORMANCE EVALUATION OF A DIRECT SAMPLING GNSS RECEIVERTELECOM I+D 2011
 
EVALUACIÓN DE LA EFICIENCIA ENERGÉTICA DE UN ESQUEMA DE APAGADO SELECTIVO EN ...
EVALUACIÓN DE LA EFICIENCIA ENERGÉTICA DE UN ESQUEMA DE APAGADO SELECTIVO EN ...EVALUACIÓN DE LA EFICIENCIA ENERGÉTICA DE UN ESQUEMA DE APAGADO SELECTIVO EN ...
EVALUACIÓN DE LA EFICIENCIA ENERGÉTICA DE UN ESQUEMA DE APAGADO SELECTIVO EN ...TELECOM I+D 2011
 
CAPACIDAD Y GRADO DE SERVICIO EN DESPLIEGUES MASIVOS DE FEMTOCELDAS 3G
CAPACIDAD Y GRADO DE SERVICIO EN DESPLIEGUES MASIVOS DE FEMTOCELDAS 3GCAPACIDAD Y GRADO DE SERVICIO EN DESPLIEGUES MASIVOS DE FEMTOCELDAS 3G
CAPACIDAD Y GRADO DE SERVICIO EN DESPLIEGUES MASIVOS DE FEMTOCELDAS 3GTELECOM I+D 2011
 
A HYBRID DTN/MANET COMMUNICATION MODEL FOR ENERGY CRITICAL INFRASTRUCTURE PRO...
A HYBRID DTN/MANET COMMUNICATION MODEL FOR ENERGY CRITICAL INFRASTRUCTURE PRO...A HYBRID DTN/MANET COMMUNICATION MODEL FOR ENERGY CRITICAL INFRASTRUCTURE PRO...
A HYBRID DTN/MANET COMMUNICATION MODEL FOR ENERGY CRITICAL INFRASTRUCTURE PRO...TELECOM I+D 2011
 
"ALL YOUR DATA ARE BELONG TO US" OR HOW THE INTERNET GIANTS MAY HAVE A CARD U...
"ALL YOUR DATA ARE BELONG TO US" OR HOW THE INTERNET GIANTS MAY HAVE A CARD U..."ALL YOUR DATA ARE BELONG TO US" OR HOW THE INTERNET GIANTS MAY HAVE A CARD U...
"ALL YOUR DATA ARE BELONG TO US" OR HOW THE INTERNET GIANTS MAY HAVE A CARD U...TELECOM I+D 2011
 
SATURNO: UN NUEVO CONCEPTO DE DISTRIBUCIÓN DE CONTENIDOS AVANZADOS EN EL HOGAR
SATURNO: UN NUEVO CONCEPTO DE DISTRIBUCIÓN DE CONTENIDOS AVANZADOS EN EL HOGARSATURNO: UN NUEVO CONCEPTO DE DISTRIBUCIÓN DE CONTENIDOS AVANZADOS EN EL HOGAR
SATURNO: UN NUEVO CONCEPTO DE DISTRIBUCIÓN DE CONTENIDOS AVANZADOS EN EL HOGARTELECOM I+D 2011
 
DVB-NGH, LA NUEVA GENERACIÓN DE TV DIGITAL MÓVIL
DVB-NGH, LA NUEVA GENERACIÓN DE TV DIGITAL MÓVILDVB-NGH, LA NUEVA GENERACIÓN DE TV DIGITAL MÓVIL
DVB-NGH, LA NUEVA GENERACIÓN DE TV DIGITAL MÓVILTELECOM I+D 2011
 
RADIODIFUSIÓN DE LA 2ª GENERACIÓN DE 3DTV
RADIODIFUSIÓN DE LA 2ª GENERACIÓN DE 3DTVRADIODIFUSIÓN DE LA 2ª GENERACIÓN DE 3DTV
RADIODIFUSIÓN DE LA 2ª GENERACIÓN DE 3DTVTELECOM I+D 2011
 
MAPEO DE CALIDAD DE SERVICIO ENTRE REDES DIFFSERV Y WIMAX
MAPEO DE CALIDAD DE SERVICIO ENTRE REDES DIFFSERV Y WIMAXMAPEO DE CALIDAD DE SERVICIO ENTRE REDES DIFFSERV Y WIMAX
MAPEO DE CALIDAD DE SERVICIO ENTRE REDES DIFFSERV Y WIMAXTELECOM I+D 2011
 
Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...
Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...
Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...TELECOM I+D 2011
 
Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...
Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...
Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...TELECOM I+D 2011
 
EXPERIMENTACIÓN EN LA INTERNET DEL FUTURO SOBRE UNA RED DE SENSORES PARA LA G...
EXPERIMENTACIÓN EN LA INTERNET DEL FUTURO SOBRE UNA RED DE SENSORES PARA LA G...EXPERIMENTACIÓN EN LA INTERNET DEL FUTURO SOBRE UNA RED DE SENSORES PARA LA G...
EXPERIMENTACIÓN EN LA INTERNET DEL FUTURO SOBRE UNA RED DE SENSORES PARA LA G...TELECOM I+D 2011
 
INTELVIA: PLATAFORMA INALÁMBRICA MULTI-TECNOLOGÍA PARA LA SEÑALIZACIÓN, SEGUR...
INTELVIA: PLATAFORMA INALÁMBRICA MULTI-TECNOLOGÍA PARA LA SEÑALIZACIÓN, SEGUR...INTELVIA: PLATAFORMA INALÁMBRICA MULTI-TECNOLOGÍA PARA LA SEÑALIZACIÓN, SEGUR...
INTELVIA: PLATAFORMA INALÁMBRICA MULTI-TECNOLOGÍA PARA LA SEÑALIZACIÓN, SEGUR...TELECOM I+D 2011
 
URBAN ANALYSIS FOR THE XXI CENTURY: USING PERVASIVE INFRASTRUCTURES FOR MODEL...
URBAN ANALYSIS FOR THE XXI CENTURY: USING PERVASIVE INFRASTRUCTURES FOR MODEL...URBAN ANALYSIS FOR THE XXI CENTURY: USING PERVASIVE INFRASTRUCTURES FOR MODEL...
URBAN ANALYSIS FOR THE XXI CENTURY: USING PERVASIVE INFRASTRUCTURES FOR MODEL...TELECOM I+D 2011
 
PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...
PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...
PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...TELECOM I+D 2011
 
EVALUACIÓN DE COMUNICACIONES HETEROGÉNEAS PARA EL DESPLIEGUE DE REDES DE SENS...
EVALUACIÓN DE COMUNICACIONES HETEROGÉNEAS PARA EL DESPLIEGUE DE REDES DE SENS...EVALUACIÓN DE COMUNICACIONES HETEROGÉNEAS PARA EL DESPLIEGUE DE REDES DE SENS...
EVALUACIÓN DE COMUNICACIONES HETEROGÉNEAS PARA EL DESPLIEGUE DE REDES DE SENS...TELECOM I+D 2011
 
INFRAESTRUCTURA TIC PARA SOPORTAR EFICIENCIA ENERGÉTICA EN SMART CITIES
INFRAESTRUCTURA TIC PARA SOPORTAR EFICIENCIA ENERGÉTICA EN SMART CITIESINFRAESTRUCTURA TIC PARA SOPORTAR EFICIENCIA ENERGÉTICA EN SMART CITIES
INFRAESTRUCTURA TIC PARA SOPORTAR EFICIENCIA ENERGÉTICA EN SMART CITIESTELECOM I+D 2011
 
SISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICO
SISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICOSISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICO
SISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICOTELECOM I+D 2011
 
ELASTICIDAD AUTOMÁTICA BASADA EN MÉTRICAS DE SERVICIO DE APLICACIONES CORPORA...
ELASTICIDAD AUTOMÁTICA BASADA EN MÉTRICAS DE SERVICIO DE APLICACIONES CORPORA...ELASTICIDAD AUTOMÁTICA BASADA EN MÉTRICAS DE SERVICIO DE APLICACIONES CORPORA...
ELASTICIDAD AUTOMÁTICA BASADA EN MÉTRICAS DE SERVICIO DE APLICACIONES CORPORA...TELECOM I+D 2011
 
Keynote Speech: ¿Para qué sirve Internet?
Keynote Speech: ¿Para qué sirve Internet?Keynote Speech: ¿Para qué sirve Internet?
Keynote Speech: ¿Para qué sirve Internet?TELECOM I+D 2011
 

More from TELECOM I+D 2011 (20)

PERFORMANCE EVALUATION OF A DIRECT SAMPLING GNSS RECEIVER
PERFORMANCE EVALUATION OF A DIRECT SAMPLING GNSS RECEIVERPERFORMANCE EVALUATION OF A DIRECT SAMPLING GNSS RECEIVER
PERFORMANCE EVALUATION OF A DIRECT SAMPLING GNSS RECEIVER
 
EVALUACIÓN DE LA EFICIENCIA ENERGÉTICA DE UN ESQUEMA DE APAGADO SELECTIVO EN ...
EVALUACIÓN DE LA EFICIENCIA ENERGÉTICA DE UN ESQUEMA DE APAGADO SELECTIVO EN ...EVALUACIÓN DE LA EFICIENCIA ENERGÉTICA DE UN ESQUEMA DE APAGADO SELECTIVO EN ...
EVALUACIÓN DE LA EFICIENCIA ENERGÉTICA DE UN ESQUEMA DE APAGADO SELECTIVO EN ...
 
CAPACIDAD Y GRADO DE SERVICIO EN DESPLIEGUES MASIVOS DE FEMTOCELDAS 3G
CAPACIDAD Y GRADO DE SERVICIO EN DESPLIEGUES MASIVOS DE FEMTOCELDAS 3GCAPACIDAD Y GRADO DE SERVICIO EN DESPLIEGUES MASIVOS DE FEMTOCELDAS 3G
CAPACIDAD Y GRADO DE SERVICIO EN DESPLIEGUES MASIVOS DE FEMTOCELDAS 3G
 
A HYBRID DTN/MANET COMMUNICATION MODEL FOR ENERGY CRITICAL INFRASTRUCTURE PRO...
A HYBRID DTN/MANET COMMUNICATION MODEL FOR ENERGY CRITICAL INFRASTRUCTURE PRO...A HYBRID DTN/MANET COMMUNICATION MODEL FOR ENERGY CRITICAL INFRASTRUCTURE PRO...
A HYBRID DTN/MANET COMMUNICATION MODEL FOR ENERGY CRITICAL INFRASTRUCTURE PRO...
 
"ALL YOUR DATA ARE BELONG TO US" OR HOW THE INTERNET GIANTS MAY HAVE A CARD U...
"ALL YOUR DATA ARE BELONG TO US" OR HOW THE INTERNET GIANTS MAY HAVE A CARD U..."ALL YOUR DATA ARE BELONG TO US" OR HOW THE INTERNET GIANTS MAY HAVE A CARD U...
"ALL YOUR DATA ARE BELONG TO US" OR HOW THE INTERNET GIANTS MAY HAVE A CARD U...
 
SATURNO: UN NUEVO CONCEPTO DE DISTRIBUCIÓN DE CONTENIDOS AVANZADOS EN EL HOGAR
SATURNO: UN NUEVO CONCEPTO DE DISTRIBUCIÓN DE CONTENIDOS AVANZADOS EN EL HOGARSATURNO: UN NUEVO CONCEPTO DE DISTRIBUCIÓN DE CONTENIDOS AVANZADOS EN EL HOGAR
SATURNO: UN NUEVO CONCEPTO DE DISTRIBUCIÓN DE CONTENIDOS AVANZADOS EN EL HOGAR
 
DVB-NGH, LA NUEVA GENERACIÓN DE TV DIGITAL MÓVIL
DVB-NGH, LA NUEVA GENERACIÓN DE TV DIGITAL MÓVILDVB-NGH, LA NUEVA GENERACIÓN DE TV DIGITAL MÓVIL
DVB-NGH, LA NUEVA GENERACIÓN DE TV DIGITAL MÓVIL
 
RADIODIFUSIÓN DE LA 2ª GENERACIÓN DE 3DTV
RADIODIFUSIÓN DE LA 2ª GENERACIÓN DE 3DTVRADIODIFUSIÓN DE LA 2ª GENERACIÓN DE 3DTV
RADIODIFUSIÓN DE LA 2ª GENERACIÓN DE 3DTV
 
MAPEO DE CALIDAD DE SERVICIO ENTRE REDES DIFFSERV Y WIMAX
MAPEO DE CALIDAD DE SERVICIO ENTRE REDES DIFFSERV Y WIMAXMAPEO DE CALIDAD DE SERVICIO ENTRE REDES DIFFSERV Y WIMAX
MAPEO DE CALIDAD DE SERVICIO ENTRE REDES DIFFSERV Y WIMAX
 
Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...
Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...
Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...
 
Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...
Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...
Mesa Redonda: "Innovación en la Smart City como impulsora del nuevo modelo pr...
 
EXPERIMENTACIÓN EN LA INTERNET DEL FUTURO SOBRE UNA RED DE SENSORES PARA LA G...
EXPERIMENTACIÓN EN LA INTERNET DEL FUTURO SOBRE UNA RED DE SENSORES PARA LA G...EXPERIMENTACIÓN EN LA INTERNET DEL FUTURO SOBRE UNA RED DE SENSORES PARA LA G...
EXPERIMENTACIÓN EN LA INTERNET DEL FUTURO SOBRE UNA RED DE SENSORES PARA LA G...
 
INTELVIA: PLATAFORMA INALÁMBRICA MULTI-TECNOLOGÍA PARA LA SEÑALIZACIÓN, SEGUR...
INTELVIA: PLATAFORMA INALÁMBRICA MULTI-TECNOLOGÍA PARA LA SEÑALIZACIÓN, SEGUR...INTELVIA: PLATAFORMA INALÁMBRICA MULTI-TECNOLOGÍA PARA LA SEÑALIZACIÓN, SEGUR...
INTELVIA: PLATAFORMA INALÁMBRICA MULTI-TECNOLOGÍA PARA LA SEÑALIZACIÓN, SEGUR...
 
URBAN ANALYSIS FOR THE XXI CENTURY: USING PERVASIVE INFRASTRUCTURES FOR MODEL...
URBAN ANALYSIS FOR THE XXI CENTURY: USING PERVASIVE INFRASTRUCTURES FOR MODEL...URBAN ANALYSIS FOR THE XXI CENTURY: USING PERVASIVE INFRASTRUCTURES FOR MODEL...
URBAN ANALYSIS FOR THE XXI CENTURY: USING PERVASIVE INFRASTRUCTURES FOR MODEL...
 
PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...
PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...
PLATAFORMA ESCALABLE COMERCIAL DE BAJO COSTE Y ALTO RENDIMIENTO PARA DESARROL...
 
EVALUACIÓN DE COMUNICACIONES HETEROGÉNEAS PARA EL DESPLIEGUE DE REDES DE SENS...
EVALUACIÓN DE COMUNICACIONES HETEROGÉNEAS PARA EL DESPLIEGUE DE REDES DE SENS...EVALUACIÓN DE COMUNICACIONES HETEROGÉNEAS PARA EL DESPLIEGUE DE REDES DE SENS...
EVALUACIÓN DE COMUNICACIONES HETEROGÉNEAS PARA EL DESPLIEGUE DE REDES DE SENS...
 
INFRAESTRUCTURA TIC PARA SOPORTAR EFICIENCIA ENERGÉTICA EN SMART CITIES
INFRAESTRUCTURA TIC PARA SOPORTAR EFICIENCIA ENERGÉTICA EN SMART CITIESINFRAESTRUCTURA TIC PARA SOPORTAR EFICIENCIA ENERGÉTICA EN SMART CITIES
INFRAESTRUCTURA TIC PARA SOPORTAR EFICIENCIA ENERGÉTICA EN SMART CITIES
 
SISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICO
SISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICOSISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICO
SISTEMA DE DETECCIÓN DE ALARMAS DE VIDEOVIGILANCIA BASADO EN ANÁLISIS SEMÁNTICO
 
ELASTICIDAD AUTOMÁTICA BASADA EN MÉTRICAS DE SERVICIO DE APLICACIONES CORPORA...
ELASTICIDAD AUTOMÁTICA BASADA EN MÉTRICAS DE SERVICIO DE APLICACIONES CORPORA...ELASTICIDAD AUTOMÁTICA BASADA EN MÉTRICAS DE SERVICIO DE APLICACIONES CORPORA...
ELASTICIDAD AUTOMÁTICA BASADA EN MÉTRICAS DE SERVICIO DE APLICACIONES CORPORA...
 
Keynote Speech: ¿Para qué sirve Internet?
Keynote Speech: ¿Para qué sirve Internet?Keynote Speech: ¿Para qué sirve Internet?
Keynote Speech: ¿Para qué sirve Internet?
 

Extracción de Localizaciones Geográficas en Artículos Periodísticos

  • 1. Extracción Automática de  Localizaciones Geográficas en  Artículos Periodísticos en  Formato Electrónico César García Gómez y Jorge Díez Mínguez Telefónica I+D cesargg@tid.es, jdiez25@yahoo.com
  • 2. Índice • Introducción • Aspectos Tecnológicos • Implementación • Evaluación • Demostración • Conclusiones
  • 3. Introducción • Extracción de localizaciones geográficas  Auge y desarrollo de la utilización de técnicas y herramientas de  representación y posicionamiento geográfico  Google Maps  La extracción de localizaciones geográficas en documentos de texto (Location Extraction) Caso particular Técnicas de extracción de palabras  Subtarea de y frases clave Reconocimiento y Clasificación de  (Keyword Extraction / Keyphrase Entidades Nombradas Extraction) (NERC) Se basa Técnicas de Inteligencia Artificial: Aprendizaje Automático (Machine Learning) Coincidencia de Patrones (Pattern Matching) Procesamiento del lenguaje natural (Natural Language Process)
  • 4. Introducción • Motivación – Internet  Aumento del consumo de publicaciones a través de su formato  electrónico – Aumento de la competencia entre este tipo de publicaciones online – Servicios de valor añadido que atraigan un mayor número de lectores  Localización geográfica de las noticias: visualización en un mapa • Ámbito periodístico y local – Sección en la que se encuentre la noticia – La granularidad en la definición de la localización geográfica dependerá de  dónde suceda la noticia (local, provincial, regional, nacional o internacional)
  • 5. Introducción • Mejora de las herramientas  Proporcionar un vocabulario acotado de posibles palabras  clave  Diccionarios específicos (Gazetteers)  Localidades, calles, organizaciones, personas, etc…  Utilización de técnicas semánticas para confirmar y  completar los resultados obtenidos y resolver posibles  ambigüedades en las entidades encontradas  Tesauros
  • 7. Aspectos Tecnológicos • Recuperación de la información (IR) – Búsqueda de documentos, de información dentro de los documentos y de metadatos que describen los documentos – Los Sistemas de Recuperación de Información (SRI), están orientados a la gestión de  información textual desestructurada – Fueron diseñados para superar las limitaciones que presentaban los Sistemas de  Gestión de Base de Datos (SGBD) relacionales para trabajar con información  desestructurada • Extracción de la información (IE) – Tipo de Recuperación de la Información cuyo objetivo es extraer automáticamente  información estructurada a partir de documentos desestructurados – IE no es lo mismo que IR. IE no recupera un conjunto de documentos que pueden ser  relevantes, sino que su objetivo es extraer de los documentos hechos importantes  sobre tipos de eventos, entidades o relaciones preestablecidos de antemano
  • 8. Aspectos Tecnológicos • Reconocimiento y Clasificación de entidades  nombradas – Los sistemas de NERC acometen dos tareas principales: • Identificar nombres propios en los textos • Clasificar dichos nombres en un conjunto de categorías  predefinidas como son nombres de personas, organizaciones,  localizaciones, expresiones temporales y valores numéricos – En cuanto a su funcionamiento, los sistemas de NERC se  pueden clasificar en tres clases: • Los basados en conocimiento (reglas manuales) que se  fundamentan en el uso de técnicas gramaticales y lingüísticas que  ha diseñado un experto en esa materia • Los que se basan en aprendizaje automático (Machine Learning) y  modelos estadísticos • Los sistemas híbridos que combinan los dos anteriores
  • 9. Aspectos Tecnológicos • GIR y GIS – Recuperación de la Información Geográfica (GIR) surge de  la aplicación de las técnicas de IR a entidades geográficas – Los GIR se centran en la búsqueda de una pequeña  cantidad de datos semánticos  Una localización o  característica geográfica asociada a un documento Un Sistema de Información  Geográfica (GIS) es una  integración organizada de  hardware, software y datos  geográficos, diseñado para  capturar, almacenar,  manipular, analizar y  desplegar en todas sus formas  la información  geográficamente referenciada
  • 10. Aspectos Tecnológicos • Tesauros – Un tesauro es un vocabulario controlado y estructurado formalmente,  formado por términos que guardan entre sí relaciones semánticas y  genéricas: de equivalencia, jerárquicas y asociativas – Permite convertir el lenguaje natural de los documentos en un  lenguaje controlado, con el fin de servir tanto para la indización, como  para la recuperación de los documentos • Herramientas de Georreferenciación – La georreferenciación es el posicionamiento en el que se define la  localización de un objeto espacial (representado mediante punto,  vector, área, volumen) en un sistema de coordenadas determinado – Aparición de nuevas herramientas cuya facilidad de uso ha extendido  esta tarea fuera del ámbito técnico existente hasta ahora: Google Maps Google Earth Bing Maps OpenStreetMap
  • 13. Implementación RSS Fead Reader • Programa en Python para leer los ficheros XML/RSS desde un  conjunto de URLs definidas en un fichero de configuración y  obtener de su contenido la URL de cada una de las noticias  completas
  • 14. Implementación HTML Scrapper • Programa en Python que toma el título y cuerpo de las  noticias que se encuentran en los ficheros html a los que  apuntan las URLs obtenidas del RSS Feed Reader, eliminando  las marcas de formato html y otros contenidos innecesarios  (publicidad, enlaces a otras secciones del periódico, etc.)
  • 15. Implementación Semisupervised NERC • Dos módulos de NERC que funcionan de forma complementaria  formando un modelo híbrido: • Basado en aprendizaje automático: este módulo es el encargado de  ofrecer el resultado final con el etiquetado de las NE de las noticias • Basado en reglas que servirá para etiquetar automáticamente noticias  que se utilizan para entrenar al primer módulo
  • 16. Implementación NE Semantic Disambiguator • Desambiguación del significado de algunas de las NE detectadas y clasificadas en el módulo anterior y que son  susceptibles de tener varios significados distintos
  • 17. Implementación Tesauro • Adaptado al contexto en el que pueden aparecer las NE. • La desambiguación semántica se realiza mediante un ranking de los  posibles significados que la NE pueda tener dentro del tesauro  correspondiente.  • Se puntuará positivamente que aparezcan en la misma noticia otras  palabras con las que la palabra que queremos desambiguar tenga alguna  relación semántica: •1 para las relaciones altLabel • 1 para las relaciones prefLabel • 0,75 para las relaciones narrower • 0,75 para las relaciones broader • 0,5 para las relaciones related
  • 18. Implementación Tag & Location Extractor • Programa en Java para extraer las NE de los ficheros de noticias  etiquetados, e introducirlas en la BBDD quedando relacionadas cada una  de las noticias con un conjunto de NE y con su tipo correspondiente. • También determina mediante heurísticas sencillas cuál es la localización  principal de la noticia eligiendo entre todas las detectadas
  • 19. Implementación BBDD & Aplicación Web • Datos de las noticias y las NE de manera estructurada. Gestor de base de  datos SQLite 3 • App Web recoge los datos de la BBDD para mostrarlos adecuadamente.  Se estructura en una arquitectura Modelo‐Vista‐Controlador  (MVC).Utiliza Google Maps como herramienta de Georreferenciación
  • 21. Evaluación Conjunto de datos para entrenamiento y pruebas – Training Set: – CoNLL 2002‐Spanish • Conference on Computational Natural Language Learning (CoNLL) • Conjunto de más de 300.000 palabras • Más de 20.000 NE (LOC, PER, ORG y MISC) – Selección de artículos de la edición digital de El Norte de Castilla • Noticias extraídas de la edición digital de El Norte de Castilla (2010) • 12 artículos de diferente temática, autores y profundidad de contenidos • 4.742 palabras • 251 NE (LOC, PER, ORG) – Test Set: • Noticias extraídas de la edición digital de El Norte de Castilla (2010) • Formado por 9 artículos de diferente temática • Contiene 1.519 palabras y 78 NE (LOC, PER, ORG)
  • 22. Evaluación Metodología y métricas de evaluación • Tres principales técnicas de evaluación: – MUC – IREX‐CoNLL – ACE Utilizaremos la técnica de evaluación definida por las conferencias IREX y CoNLL, basada  en la métrica MAF(micro‐averaged f‐measure): • Precisión • P = Entidades detectadas correctamente/Entidades detectadas • Cobertura (recall) • R = Entidades detectadas correctamente/Entidades existentes • MAF (también denominado F1) • F1 = 2*P*R/(P+R)
  • 23. Evaluación Criterios de Preselección – Software de libre distribución – Buenos resultados en conferencias y congresos – Curva de aprendizaje suave Herramientas NERC seleccionadas • Aprendizaje automático – LBJ NER •Sistemas híbridos – Stanford NER •Freeling – Lingpipe • Conocimientos lingüísticos (reglas) – CAGEclass – DRAMNERI – LT‐TTT2
  • 24. Evaluación Herramientas NERC seleccionadas  Aprendizaje automático  LBJ NER (Illinois Named Entity Tagger 1.2) LBJ NER: Entrenamiento CoNLL2002 y gazetteers locales  Reglas  Freeling (Parte de reglas) Freeling: Sin entrenamiento
  • 25. Evaluación Resultados de la propuesta  LBJ NER + gazetteers mejorados + Tesauro sobre Valladolid ‘ LBJNER con entrenamiento CoNLL2002 y gazetteers mejorados más la utilización del tesauro sobre Valladolid  Mejoras obtenidas (sobre F1) • GLOBAL (todas las NE)  20% • PER  17% • ORG  31% • LOC  7%
  • 31. Conclusiones Conclusiones  Auge de herramientas y técnicas de representación y posicionamiento  geográfico en el mundo de Internet  Desarrollo de herramientas NERC  Conferencias: MUC, IREX, CoNLL, ACE,  etc…  Su utilización en ámbitos acotados (periodismo, localización geográfica)  permite mejoras en el rendimiento  Mejoras ampliando los gazetteers con NE particulares de la zona y utilizando  técnicas semánticas (tesauros) para ratificar resultados y resolver  ambigüedades  Mejoras globales en parámetros como F1  20% sobre un test de prueba  formado por artículos de “El Norte de Castilla”  Mejoras obtenidas en el caso de las NE referentes a localizaciones (LOC)  7%  El resultado final  Aplicación web que facilita la lectura de un periódico  digital online, identificando visualmente la localización de las noticias a partir  del texto y mostrándola en un mapa
  • 32. Conclusiones Líneas Futuras  Actualizar nuestra base de noticias automáticamente  Generar tesauros partiendo de diferentes categorías (deportes, economía,  sociedad, …)  Diferentes secciones de la publicación  Estudio de la manera de asignar las diferentes puntuaciones que se otorgan a  las NE detectadas por la herramienta y contenidas en el tesauro  Valoración de cuáles son las más relevantes  Valorar la utilización de nuevas herramientas NERC  Herramientas basadas en reglas  Actualizar gazetteers utilizados (listado de  nombres y apellidos, organizaciones institucionales, empresas, asociaciones,  localidades, nuevas calles, etc.…)  Desarrollo de un conjunto de datos de entrenamiento partiendo de artículos  de la publicación online  Reglas para elegir la localización final de la noticia  Incorporar nuevas reglas  que permitan identificar recorridos, rutas, agrupaciones de calles o barrios  Funcionalidades en la aplicación web  Consultar noticias por localización,  fecha o para una zona seleccionada en el mapa