• Like
Esther Villar, Tecnalia - I+D+i en las lenguas / I+G+b hizkuntzetan
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

Esther Villar, Tecnalia - I+D+i en las lenguas / I+G+b hizkuntzetan

  • 323 views
Published

En la jornada “I+D+i en las lenguas” descubrimos soluciones que ya están ofreciendo las empresas vascas que se dedican a las industrias de la lengua. Conocemos experiencias innovadoras en el ámbito de …

En la jornada “I+D+i en las lenguas” descubrimos soluciones que ya están ofreciendo las empresas vascas que se dedican a las industrias de la lengua. Conocemos experiencias innovadoras en el ámbito de la traducción y la educación, así como las aplicaciones que tienen las tecnologías de la lengua en la salud, en el turismo o en la comunicación.

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
323
On SlideShare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
3
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Tecnologías Semánticas, Big Data & PLN Autores: Esther Villar Rodriguez Ana Isabel Torre Bastida
  • 2. Hoja de ruta  ¿Que es Big Data?  ¿Qué son las tecnologías Semánticas?  ¿Qué es PLN?  ¿Por qué estas tecnologías?  En un futuro…
  • 3. ¿Qué es Big Data?
  • 4. Big Data “Big data” is high Volume, Velocity and Variety information assets that demand costeffective, innovative forms of information processing for enhanced insight and decision making.” Gartner 2012 Tres Vs: Volumen, velocidad y variedad Formas de procesamiento innovadoras y efectivas en coste. “Big processing” Valor de la información. Almacenamiento Bases de datos NOSQL Análisis Map-Reduce (Hadoop)
  • 5. ¿Qué son Tecnologías Semánticas?
  • 6. Web semántica “La Web Semántica es una extensión de la Web actual en la que a la información disponible se le otorga (anota o marca) una semántica bien definida.”, Tim Berners Lee, 2002. RDF RDFS OWL SPARQL
  • 7. ¿Qué es PLN?
  • 8. Procesamiento del Lenguaje Natural Diccionarios actualizados Realidad social Comunicación Significado convencional Tratamientos sofisticados de construcciones Representación gramatical complejas preposicional Significado concreto del proceso comunicativo Significado Contextual Conocimiento Actitud de los hablantes Emociones Realidad Social individual
  • 9. ¿Por que estas tecnologías?
  • 10. ¿Por qué estas tecnologías? Linked Open Data Cloud Formato RDF Acceso libre Interconexión Dominios y modelos heterogéneos Otros Corpus sin modelo Google n-gram corpus USENET corpus Análisis de grandes Bases de conocimiento Extracción de información con significado en grandes volúmenes semantizados o en bruto
  • 11. ¿Por qué semántica + PLN? Necesidades de PLN: Detectar la semántica de los textos. LOP  Posibles fuentes de conocimiento para rescatar información de contexto estructurada. • Participación en RepLab 2013 en la tarea de filtrado (relación de un tweet con una entidad): Sensitivity = 0,32729 Reliability = 0,944078
  • 12. ¿Por qué Big Data + PLN? Grandes corpus en Lenguaje Natural: • Google N-grams • Usenet Problema de PLN: “Falta de escalabilidad y distribución de actuales algoritmos de PLN” Necesidades de PLN: “Análisis y procesamiento de grandes volúmenes de datos con técnicas de PLN implementadas con modelos de programación como Hadoop.”
  • 13. En un futuro …
  • 14. Big Data +Tecnologías semánticas + PLN Business Intelligence : 1. Análisis y extracción de información valida de grandes volúmenes aplicando las tres técnicas. 2. Semantización de corpus en lenguaje natural mediante generación automática de ontologías. Sistemas de búsqueda inteligente: Google Knowledge Graph 1. Generación del contexto semántico del usuario y de sus consultas y aplicación de técnicas de PLN para la desambiguación de las respuestas. Problemas de escalabilidad y distribución (Gartner 2011)
  • 15. Dudas y preguntas Gracias