Esther Villar, Tecnalia - I+D+i en las lenguas / I+G+b hizkuntzetan

1,052 views

Published on

En la jornada “I+D+i en las lenguas” descubrimos soluciones que ya están ofreciendo las empresas vascas que se dedican a las industrias de la lengua. Conocemos experiencias innovadoras en el ámbito de la traducción y la educación, así como las aplicaciones que tienen las tecnologías de la lengua en la salud, en el turismo o en la comunicación.

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,052
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Esther Villar, Tecnalia - I+D+i en las lenguas / I+G+b hizkuntzetan

  1. 1. Tecnologías Semánticas, Big Data & PLN Autores: Esther Villar Rodriguez Ana Isabel Torre Bastida
  2. 2. Hoja de ruta  ¿Que es Big Data?  ¿Qué son las tecnologías Semánticas?  ¿Qué es PLN?  ¿Por qué estas tecnologías?  En un futuro…
  3. 3. ¿Qué es Big Data?
  4. 4. Big Data “Big data” is high Volume, Velocity and Variety information assets that demand costeffective, innovative forms of information processing for enhanced insight and decision making.” Gartner 2012 Tres Vs: Volumen, velocidad y variedad Formas de procesamiento innovadoras y efectivas en coste. “Big processing” Valor de la información. Almacenamiento Bases de datos NOSQL Análisis Map-Reduce (Hadoop)
  5. 5. ¿Qué son Tecnologías Semánticas?
  6. 6. Web semántica “La Web Semántica es una extensión de la Web actual en la que a la información disponible se le otorga (anota o marca) una semántica bien definida.”, Tim Berners Lee, 2002. RDF RDFS OWL SPARQL
  7. 7. ¿Qué es PLN?
  8. 8. Procesamiento del Lenguaje Natural Diccionarios actualizados Realidad social Comunicación Significado convencional Tratamientos sofisticados de construcciones Representación gramatical complejas preposicional Significado concreto del proceso comunicativo Significado Contextual Conocimiento Actitud de los hablantes Emociones Realidad Social individual
  9. 9. ¿Por que estas tecnologías?
  10. 10. ¿Por qué estas tecnologías? Linked Open Data Cloud Formato RDF Acceso libre Interconexión Dominios y modelos heterogéneos Otros Corpus sin modelo Google n-gram corpus USENET corpus Análisis de grandes Bases de conocimiento Extracción de información con significado en grandes volúmenes semantizados o en bruto
  11. 11. ¿Por qué semántica + PLN? Necesidades de PLN: Detectar la semántica de los textos. LOP  Posibles fuentes de conocimiento para rescatar información de contexto estructurada. • Participación en RepLab 2013 en la tarea de filtrado (relación de un tweet con una entidad): Sensitivity = 0,32729 Reliability = 0,944078
  12. 12. ¿Por qué Big Data + PLN? Grandes corpus en Lenguaje Natural: • Google N-grams • Usenet Problema de PLN: “Falta de escalabilidad y distribución de actuales algoritmos de PLN” Necesidades de PLN: “Análisis y procesamiento de grandes volúmenes de datos con técnicas de PLN implementadas con modelos de programación como Hadoop.”
  13. 13. En un futuro …
  14. 14. Big Data +Tecnologías semánticas + PLN Business Intelligence : 1. Análisis y extracción de información valida de grandes volúmenes aplicando las tres técnicas. 2. Semantización de corpus en lenguaje natural mediante generación automática de ontologías. Sistemas de búsqueda inteligente: Google Knowledge Graph 1. Generación del contexto semántico del usuario y de sus consultas y aplicación de técnicas de PLN para la desambiguación de las respuestas. Problemas de escalabilidad y distribución (Gartner 2011)
  15. 15. Dudas y preguntas Gracias

×