SlideShare a Scribd company logo
1 of 36
Download to read offline
Utilidad de los datos enlazados
para la terminología
Jorge Gracia
Ontology Engineering Group
Dpto. de Inteligencia Artificial
Universidad Politécnica de Madrid
jgracia@fi.upm.es
Jornada sobre “TERMINESP y la terminología del español”
Representación de la Comisión Europea en España, Madrid
28 de octubre de 2016
Recursos lingüísticos
en la Web
2
2
Recursos lingüísticos en la Web
Recursos Lingüísticos Electrónicos
• corpus
• lexicones
• diccionarios
• “wordnets”
• terminologías
• etc.
3
Recursos lingüísticos en la Web
Actualmente…
• En formatos heterogéneos
• Diferentes esquemas de representación
• APIs no estándar
• Aislados entre sí (“data silos”)
• Diferentes niveles de acceso (desde “mándame un email” a servicios
web)
• Múltiples catálogos de recursos lingüísticos con diferentes metadatos y
esquemas de representación
Por tanto... el descubrimiento y reutilización de RLs resulta costoso en
tiempo y esfuerzo
4
*Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell
“Red”
Etimología: Del latin “rete”
Género: “f”
Definición: “Conjunto de
ordenadores o de equipos
informáticos conectados entre
sí….”
“Red”
Traducciones: “xarxa”(ca), “rede”(ga), …
“Red”
Norma: UNE 21302-131
Inglés: network
Alemán: Netzwerk
“Red”
Pronunciation: [red]
Grammar category: sustantivo femenino
Singular: “red”
Plural: “redes”
“Red_de_computadores”
Category: redes informáticas
Image
Recursos lingüísticos en la Web
“Red” (de
ordenadores)
5
*Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell
“Red”
Etimología: Del latin “rete”
Género: “f”
Definición: “Conjunto de
ordenadores o de equipos
informáticos conectados entre
sí….”
“Red”
Traducciones: “xarxa”(ca), “rede”(ga), …
“Red”
Norma: UNE 21302-131
Inglés: network
Alemán: Netzwerk
“Red”
Pronunciation: [red]
Grammar category: sustantivo femenino
Singular: “red”
Plural: “redes”
“Red_de_computadores”
Category: redes informáticas
Image
Recursos lingüísticos en la Web
Información
complementaria
pero no conectada
6
Datos enlazados para los
recursos lingüísticos
7
Datos enlazados
Prinicipos de los Datos Enlazados
(linked data principles)
1. Usar URIs (Uniform Resource Identifiers) para identificar
“cosas” en la Web
2. Usar HTTP URIs para que la gente pueda acceder a
esos identificadores y obtener algo
3. Cuando alguien accede a una URI, debe proporcionarse
información útil sobre el recurso que identifica (en RDF)
4. Incluir enlaces a otras URIs, para que se puedan
descubrir más cosas.
8
8
Datos enlazados
9
9
Datos enlazados
Red
Phonetic form
Form
number
singular
[RED]
Form
plural
[REDES]
Phonetic form
number
Red
Sense
written form
“red”@es
Sense
written form
“xarxa”@ca
translation
Red
image
Red
Sense Sense
translation written form
“red” “network”
written form
Red
written form
Form
gender
femenine
“red”
10
Datos enlazados
Red
Phonetic form
Form
number
singular
[RED]
Form
plural
[REDES]
Phonetic form
number
Red
Sense
written form
“red”@es
Sense
written form
“xarxa”@ca
translation
Red
image
Red
Sense Sense
translation written form
“red” “network”
written form
Red
written form
Form
gender
femenine
“red”
11
Datos enlazados
Algunos BENEFICIOS de los recursos lingüísticos
como datos enlazados
• Agregación e integración de recursos lingüísticos
• Los datos se exponen de manera estandarizada (SPARQL)
• Se facilita el descubrimiento de los datos
• Uso de vocabularios acordados para representar contenido
lingüístico
NIF
NLP Interchange Format
12
12
Datos enlazados
Linguistic Linked Data Cloud
Aparición de la “nube de datos lingüísticos enlazados”
Linguistic Linked Open Data (LLOD) cloud
13
http://linguistic-lod.org/llod-cloud
13
El modelo lemon-ontolex
14
lemon-ontolex
15
El núcleo del modelo
https://www.w3.org/2016/05/ontolex/
lemon-ontolex
16
El módulo vartrans
Datos enlazados en
terminologías:
Terminoteca RDF
17
Terminesp TERMCAT IATE
Otras
terminologías
Terminoteca RDF
18
Terminoteca RDF
TERMINOTECA RDF como demostrador del potencial de los datos
enlazados en terminologías
• Basado en Terminesp y Termcat
• Multilingüe: inglés, catalán, francés, italiano, sueco, alemán, latín
http://linguistic.linkeddata.es/terminoteca/
19
Terminesp
TERMINESP es la base de datos terminológica creada por AETER
(Asociación Española de Terminología) en base a la terminología
contenida en las normas UNE (AENOR)
>30,000 términos técnicos con definiciones (en español)
Variedad de dominios: aeronáutica, agricultura, ingeniería eléctrica, …
Traducciones al Inglés, francés, alemán, italiano, sueco
Denominación científica (latín)
20
http://www.wikilengua.org/index.php/Wikilengua:Terminesp
Terminesp
4
http://www.wikilengua.org/index.php/Wikilengua:Terminesp
21
Termcat
http://www.termcat.cat/en/Terminologia_Oberta/
TERMCAT es el centro de terminología de la lengua catalana,
responsable de la Terminologia Oberta:
Gran variedad de dominios. [En nuestro prototipo: Internet y sociedad
de la información, Telecomunicaciones, Industria electrónica]
Traducciones al español, inglés y francés
Siglas, abreviaturas, sinónimos,…
22
Termcat
http://www.termcat.cat/en/Terminologia_Oberta/
23
Terminoteca RDF
Conversión de TERMINESP y TERMCAT a datos enlazados:
De acuerdo al modelo lemon-ontolex
Cada elemento lingüístico (lexical entry, lexical form, lexical sense,
translation, …) identificado con una URI
Creación de conceptos en skos para dar cuenta de la información
semántica
En TERMINESP:
>30000 conceptos creados
Añadida información de categorías gramaticales (part-of-speech)
Añadido el tipo de sintagma (nominal, adjetival, preposicional, …)
En TERMCAT:
> 7000 conceptos creados (tres dominios)
24
Terminoteca RDF
25
DE ES
SV
IT
FR
EN
ES
FR
EN
CA
Terminoteca RDF
26
DE ES
SV
IT
FR
EN
CA
Terminoteca-RDF
Terminoteca RDF
27
Terminoteca RDF
28
Terminoteca RDF
29
Terminoteca RDF
Interfaz web para obtener traducciones directas
http://linguistic.linkeddata.es/terminoteca/search/
30
Terminoteca RDF
31
Motor SPARQL para búsquedas semánticas más complejas
http://linguistic.linkeddata.es/terminoteca/sparql-editor/
Terminoteca RDF
Ejemplo: “Dame traducciones al catalán [Termcat] y al alemán [Terminesp]
del término en español ‘amplificador’, indicando el origen de los datos y el
dominio de aplicación.”
32
wr_target provenance subject
"amplificador"@ca
http://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s
ocietat%20de%20la%20informacio.xml
"Electrònica"@ca
"amplificador"@ca
http://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr
onica%20i%20dels%20materials%20electrics.xml
"Electrònica"@ca
"amplificador"@ca
http://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s
ocietat%20de%20la%20informacio.xml
"Societat de la informació"@ca
"amplificador"@ca
http://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr
onica%20i%20dels%20materials%20electrics.xml
"Societat de la informació"@ca
"amplificador"@ca
http://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s
ocietat%20de%20la%20informacio.xml
"Telecomunicacions"@ca
"amplificador"@ca
http://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr
onica%20i%20dels%20materials%20electrics.xml
"Telecomunicacions"@ca
"Verstärker"@de http://www.wikilengua.org
"Verstärket"@de http://www.wikilengua.org
Terminoteca RDF
33
Ejemplo: “Dame las siglas [de Termcat] asociadas a las entradas en inglés
que vengan de Terminesp [y que no tenían siglas asociadas, inicialmente].”
label initialism
"code division multiple access"@en "CDMA"@en
"time division multiple access"@en "TDMA"@en
"light-emitting diode"@en "LED"@en
"unipolar transistor"@en "FET"@en
"N-channel field-effect transistor"@en "N-FET"@en
"database management system"@en "DBMS"@en
"frequency division multiple access"@en "FDMA"@en
"low-noise amplifier"@en "LNA"@en
"automatic gain control"@en "AGC"@en
"programmable logic controller"@en "PLC"@en
"alternating current"@en "AC"@en
"direct current"@en "DC"@en
"programmable logic device"@en "PLD"@en
Conclusiones
Conclusiones
• Los datos enlazados pueden ser de utilidad para los recursos
lingüísticos en general y las terminologías en particular
• Iniciativa Terminoteca RDF: crear un grafo unificado de
terminologías en España basado en técnicas de datos enlazados
• Validación y enriquecimiento de los datos, y enlazado a otras
fuentes
• Futuros pasos:
• Enlace con otras terminologías y fuentes de datos (ej.: IATE, DBpedia,
Apertium)
• Evolución más allá de estado de “prototipo” de investigación
• Interacción más directa con los propios procesos de
creación/validación/publicación de datos de Terminesp y Termcat
35
¡Gracias!
36Ontology Engineering Group

More Related Content

Viewers also liked

Methodology for Linguistic Linked Open Data generation. The Apertium RDF case
Methodology for Linguistic Linked Open Data generation. The Apertium RDF caseMethodology for Linguistic Linked Open Data generation. The Apertium RDF case
Methodology for Linguistic Linked Open Data generation. The Apertium RDF caseJorge Gracia
 
2017 UpdatedCV Julie Paton Facilities
2017 UpdatedCV Julie Paton Facilities2017 UpdatedCV Julie Paton Facilities
2017 UpdatedCV Julie Paton FacilitiesJulie Paton
 
Contaduria publica power
Contaduria publica powerContaduria publica power
Contaduria publica powersara gomez
 
Proyecto integral de semestre
Proyecto integral de semestreProyecto integral de semestre
Proyecto integral de semestrepablovelascof
 
Cuestionario previo clases sexualidad pp.doc.docx
Cuestionario previo clases sexualidad pp.doc.docxCuestionario previo clases sexualidad pp.doc.docx
Cuestionario previo clases sexualidad pp.doc.docxBorjafa
 
Herramientas digitales
Herramientas digitalesHerramientas digitales
Herramientas digitalesBenito Espinal
 
Practico de rodriguez claudia de google
Practico de rodriguez claudia de googlePractico de rodriguez claudia de google
Practico de rodriguez claudia de googlenahiarati
 
Model to scan workflow
Model to scan workflowModel to scan workflow
Model to scan workflowSal D'Ambrosia
 
English Premier League Player Awards 2010/ 11
English Premier League Player Awards 2010/ 11 English Premier League Player Awards 2010/ 11
English Premier League Player Awards 2010/ 11 Shekhar Ibhrampurkar
 

Viewers also liked (20)

Methodology for Linguistic Linked Open Data generation. The Apertium RDF case
Methodology for Linguistic Linked Open Data generation. The Apertium RDF caseMethodology for Linguistic Linked Open Data generation. The Apertium RDF case
Methodology for Linguistic Linked Open Data generation. The Apertium RDF case
 
2017 UpdatedCV Julie Paton Facilities
2017 UpdatedCV Julie Paton Facilities2017 UpdatedCV Julie Paton Facilities
2017 UpdatedCV Julie Paton Facilities
 
00008830
0000883000008830
00008830
 
Teatreeoil
TeatreeoilTeatreeoil
Teatreeoil
 
Ley lleras
Ley llerasLey lleras
Ley lleras
 
Can You Understand Me
Can You Understand MeCan You Understand Me
Can You Understand Me
 
Contaduria publica power
Contaduria publica powerContaduria publica power
Contaduria publica power
 
Proyecto integral de semestre
Proyecto integral de semestreProyecto integral de semestre
Proyecto integral de semestre
 
Cuestionario previo clases sexualidad pp.doc.docx
Cuestionario previo clases sexualidad pp.doc.docxCuestionario previo clases sexualidad pp.doc.docx
Cuestionario previo clases sexualidad pp.doc.docx
 
Herramientas digitales
Herramientas digitalesHerramientas digitales
Herramientas digitales
 
Lição 3 aluno
Lição 3 alunoLição 3 aluno
Lição 3 aluno
 
Cindys profile new 2017-rev1
Cindys profile new 2017-rev1Cindys profile new 2017-rev1
Cindys profile new 2017-rev1
 
Impresionismo
ImpresionismoImpresionismo
Impresionismo
 
Argentina mi país
Argentina mi paísArgentina mi país
Argentina mi país
 
Practico de rodriguez claudia de google
Practico de rodriguez claudia de googlePractico de rodriguez claudia de google
Practico de rodriguez claudia de google
 
Whassath
WhassathWhassath
Whassath
 
Model to scan workflow
Model to scan workflowModel to scan workflow
Model to scan workflow
 
Herramientas digitales
Herramientas digitalesHerramientas digitales
Herramientas digitales
 
Hsa portfolio 2017
Hsa portfolio 2017Hsa portfolio 2017
Hsa portfolio 2017
 
English Premier League Player Awards 2010/ 11
English Premier League Player Awards 2010/ 11 English Premier League Player Awards 2010/ 11
English Premier League Player Awards 2010/ 11
 

Similar to Utilidad de los datos enlazados para la terminología

Websemanticasidar03
Websemanticasidar03Websemanticasidar03
Websemanticasidar03GloriaTinoco
 
Websemanticasidar03
Websemanticasidar03Websemanticasidar03
Websemanticasidar03GloriaTinoco
 
Web semanticasidar 03
Web semanticasidar 03Web semanticasidar 03
Web semanticasidar 03jenorevi
 
Websemanticasidar03
Websemanticasidar03Websemanticasidar03
Websemanticasidar03GloriaTinoco
 
Web Semantica Y las Bases de Datos
Web Semantica Y las Bases de DatosWeb Semantica Y las Bases de Datos
Web Semantica Y las Bases de DatosUCAB
 
ROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios Estándar
ROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios EstándarROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios Estándar
ROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios EstándarDiego López-de-Ipiña González-de-Artaza
 
Web semántica y sus principales características
Web semántica y sus principales característicasWeb semántica y sus principales características
Web semántica y sus principales característicasPollis Morales
 
Web 3.0 y herramientas tecnologicas
Web 3.0 y herramientas tecnologicasWeb 3.0 y herramientas tecnologicas
Web 3.0 y herramientas tecnologicasCarlos Arroyo
 
Agrovoc cswb training_1
Agrovoc cswb training_1Agrovoc cswb training_1
Agrovoc cswb training_1catecara
 

Similar to Utilidad de los datos enlazados para la terminología (20)

Ontologias
OntologiasOntologias
Ontologias
 
Websemanticasidar03
Websemanticasidar03Websemanticasidar03
Websemanticasidar03
 
Websemanticasidar03
Websemanticasidar03Websemanticasidar03
Websemanticasidar03
 
Web semanticasidar 03
Web semanticasidar 03Web semanticasidar 03
Web semanticasidar 03
 
Websemanticasidar03
Websemanticasidar03Websemanticasidar03
Websemanticasidar03
 
Web 3.0
Web 3.0Web 3.0
Web 3.0
 
Web Semantica Y las Bases de Datos
Web Semantica Y las Bases de DatosWeb Semantica Y las Bases de Datos
Web Semantica Y las Bases de Datos
 
ROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios Estándar
ROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios EstándarROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios Estándar
ROH: Proceso de Ingeniería Ontológica & Uso y Extensión de Vocabularios Estándar
 
Web semántica y sus principales características
Web semántica y sus principales característicasWeb semántica y sus principales características
Web semántica y sus principales características
 
Web 3.0 y herramientas tecnologicas
Web 3.0 y herramientas tecnologicasWeb 3.0 y herramientas tecnologicas
Web 3.0 y herramientas tecnologicas
 
Web semántica
Web semánticaWeb semántica
Web semántica
 
Websemanticasidar03
Websemanticasidar03Websemanticasidar03
Websemanticasidar03
 
Websemanticasidar03
Websemanticasidar03Websemanticasidar03
Websemanticasidar03
 
Websemanticasidar03
Websemanticasidar03Websemanticasidar03
Websemanticasidar03
 
Websemanticasidar03
Websemanticasidar03Websemanticasidar03
Websemanticasidar03
 
Websemanticasidar03
Websemanticasidar03Websemanticasidar03
Websemanticasidar03
 
Websemanticasidar03
Websemanticasidar03Websemanticasidar03
Websemanticasidar03
 
Websemanticasidar03
Websemanticasidar03Websemanticasidar03
Websemanticasidar03
 
Dbpedia
DbpediaDbpedia
Dbpedia
 
Agrovoc cswb training_1
Agrovoc cswb training_1Agrovoc cswb training_1
Agrovoc cswb training_1
 

Recently uploaded

Pobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfPobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfJC Díaz Herrera
 
Posición global del PIB per cápita Israelí (1948-2024).pdf
Posición global  del PIB per cápita  Israelí  (1948-2024).pdfPosición global  del PIB per cápita  Israelí  (1948-2024).pdf
Posición global del PIB per cápita Israelí (1948-2024).pdfJC Díaz Herrera
 
Proyecto JANNET trabajo de investigación
Proyecto JANNET trabajo de investigaciónProyecto JANNET trabajo de investigación
Proyecto JANNET trabajo de investigaciónEduCE2
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomascarmenachullahuamani1
 
Análisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfAnálisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfJulioCesarRubianoArc1
 
01 SIMULACRO 2024.pdf unijjajajajjaaaajj
01 SIMULACRO 2024.pdf unijjajajajjaaaajj01 SIMULACRO 2024.pdf unijjajajajjaaaajj
01 SIMULACRO 2024.pdf unijjajajajjaaaajjmatiasccoyllomarca
 
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúAnálisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúDiegoFranciscoLarrea
 
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.FeliGamarra1
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdfJC Díaz Herrera
 
Paisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaPaisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaAlexander VA
 
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023Estudio sobre tenencia de animales domésticos en Madrid 2019-2023
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023mmolina546
 
Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahodalisnicoles
 
Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviHugoSSalinas
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfanaliticaydatos
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioAlexander VA
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...Daniela Márquez Sena
 
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERAL
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERALCUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERAL
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERALCarlosDelgadoMiranda
 
principios pedagógicos del modelo agazian
principios pedagógicos  del modelo agazianprincipios pedagógicos  del modelo agazian
principios pedagógicos del modelo agazianjoseph957764
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEmisor Digital
 
Diapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especificoDiapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especificojuancarlos63884
 

Recently uploaded (20)

Pobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfPobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdf
 
Posición global del PIB per cápita Israelí (1948-2024).pdf
Posición global  del PIB per cápita  Israelí  (1948-2024).pdfPosición global  del PIB per cápita  Israelí  (1948-2024).pdf
Posición global del PIB per cápita Israelí (1948-2024).pdf
 
Proyecto JANNET trabajo de investigación
Proyecto JANNET trabajo de investigaciónProyecto JANNET trabajo de investigación
Proyecto JANNET trabajo de investigación
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomas
 
Análisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfAnálisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdf
 
01 SIMULACRO 2024.pdf unijjajajajjaaaajj
01 SIMULACRO 2024.pdf unijjajajajjaaaajj01 SIMULACRO 2024.pdf unijjajajajjaaaajj
01 SIMULACRO 2024.pdf unijjajajajjaaaajj
 
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúAnálisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
 
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdf
 
Paisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaPaisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historia
 
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023Estudio sobre tenencia de animales domésticos en Madrid 2019-2023
Estudio sobre tenencia de animales domésticos en Madrid 2019-2023
 
Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoah
 
Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico Jamovi
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia Patrimonio
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
 
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERAL
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERALCUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERAL
CUENCA MADRE DE DIOS-BOLIVIA INFORMACIÓN GENERAL
 
principios pedagógicos del modelo agazian
principios pedagógicos  del modelo agazianprincipios pedagógicos  del modelo agazian
principios pedagógicos del modelo agazian
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de Ipsos
 
Diapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especificoDiapositivas de recolección de datos tema en especifico
Diapositivas de recolección de datos tema en especifico
 

Utilidad de los datos enlazados para la terminología

  • 1. Utilidad de los datos enlazados para la terminología Jorge Gracia Ontology Engineering Group Dpto. de Inteligencia Artificial Universidad Politécnica de Madrid jgracia@fi.upm.es Jornada sobre “TERMINESP y la terminología del español” Representación de la Comisión Europea en España, Madrid 28 de octubre de 2016
  • 3. Recursos lingüísticos en la Web Recursos Lingüísticos Electrónicos • corpus • lexicones • diccionarios • “wordnets” • terminologías • etc. 3
  • 4. Recursos lingüísticos en la Web Actualmente… • En formatos heterogéneos • Diferentes esquemas de representación • APIs no estándar • Aislados entre sí (“data silos”) • Diferentes niveles de acceso (desde “mándame un email” a servicios web) • Múltiples catálogos de recursos lingüísticos con diferentes metadatos y esquemas de representación Por tanto... el descubrimiento y reutilización de RLs resulta costoso en tiempo y esfuerzo 4
  • 5. *Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell “Red” Etimología: Del latin “rete” Género: “f” Definición: “Conjunto de ordenadores o de equipos informáticos conectados entre sí….” “Red” Traducciones: “xarxa”(ca), “rede”(ga), … “Red” Norma: UNE 21302-131 Inglés: network Alemán: Netzwerk “Red” Pronunciation: [red] Grammar category: sustantivo femenino Singular: “red” Plural: “redes” “Red_de_computadores” Category: redes informáticas Image Recursos lingüísticos en la Web “Red” (de ordenadores) 5
  • 6. *Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell “Red” Etimología: Del latin “rete” Género: “f” Definición: “Conjunto de ordenadores o de equipos informáticos conectados entre sí….” “Red” Traducciones: “xarxa”(ca), “rede”(ga), … “Red” Norma: UNE 21302-131 Inglés: network Alemán: Netzwerk “Red” Pronunciation: [red] Grammar category: sustantivo femenino Singular: “red” Plural: “redes” “Red_de_computadores” Category: redes informáticas Image Recursos lingüísticos en la Web Información complementaria pero no conectada 6
  • 7. Datos enlazados para los recursos lingüísticos 7
  • 8. Datos enlazados Prinicipos de los Datos Enlazados (linked data principles) 1. Usar URIs (Uniform Resource Identifiers) para identificar “cosas” en la Web 2. Usar HTTP URIs para que la gente pueda acceder a esos identificadores y obtener algo 3. Cuando alguien accede a una URI, debe proporcionarse información útil sobre el recurso que identifica (en RDF) 4. Incluir enlaces a otras URIs, para que se puedan descubrir más cosas. 8 8
  • 10. Datos enlazados Red Phonetic form Form number singular [RED] Form plural [REDES] Phonetic form number Red Sense written form “red”@es Sense written form “xarxa”@ca translation Red image Red Sense Sense translation written form “red” “network” written form Red written form Form gender femenine “red” 10
  • 11. Datos enlazados Red Phonetic form Form number singular [RED] Form plural [REDES] Phonetic form number Red Sense written form “red”@es Sense written form “xarxa”@ca translation Red image Red Sense Sense translation written form “red” “network” written form Red written form Form gender femenine “red” 11
  • 12. Datos enlazados Algunos BENEFICIOS de los recursos lingüísticos como datos enlazados • Agregación e integración de recursos lingüísticos • Los datos se exponen de manera estandarizada (SPARQL) • Se facilita el descubrimiento de los datos • Uso de vocabularios acordados para representar contenido lingüístico NIF NLP Interchange Format 12 12
  • 13. Datos enlazados Linguistic Linked Data Cloud Aparición de la “nube de datos lingüísticos enlazados” Linguistic Linked Open Data (LLOD) cloud 13 http://linguistic-lod.org/llod-cloud 13
  • 15. lemon-ontolex 15 El núcleo del modelo https://www.w3.org/2016/05/ontolex/
  • 19. Terminoteca RDF TERMINOTECA RDF como demostrador del potencial de los datos enlazados en terminologías • Basado en Terminesp y Termcat • Multilingüe: inglés, catalán, francés, italiano, sueco, alemán, latín http://linguistic.linkeddata.es/terminoteca/ 19
  • 20. Terminesp TERMINESP es la base de datos terminológica creada por AETER (Asociación Española de Terminología) en base a la terminología contenida en las normas UNE (AENOR) >30,000 términos técnicos con definiciones (en español) Variedad de dominios: aeronáutica, agricultura, ingeniería eléctrica, … Traducciones al Inglés, francés, alemán, italiano, sueco Denominación científica (latín) 20 http://www.wikilengua.org/index.php/Wikilengua:Terminesp
  • 22. Termcat http://www.termcat.cat/en/Terminologia_Oberta/ TERMCAT es el centro de terminología de la lengua catalana, responsable de la Terminologia Oberta: Gran variedad de dominios. [En nuestro prototipo: Internet y sociedad de la información, Telecomunicaciones, Industria electrónica] Traducciones al español, inglés y francés Siglas, abreviaturas, sinónimos,… 22
  • 24. Terminoteca RDF Conversión de TERMINESP y TERMCAT a datos enlazados: De acuerdo al modelo lemon-ontolex Cada elemento lingüístico (lexical entry, lexical form, lexical sense, translation, …) identificado con una URI Creación de conceptos en skos para dar cuenta de la información semántica En TERMINESP: >30000 conceptos creados Añadida información de categorías gramaticales (part-of-speech) Añadido el tipo de sintagma (nominal, adjetival, preposicional, …) En TERMCAT: > 7000 conceptos creados (tres dominios) 24
  • 30. Terminoteca RDF Interfaz web para obtener traducciones directas http://linguistic.linkeddata.es/terminoteca/search/ 30
  • 31. Terminoteca RDF 31 Motor SPARQL para búsquedas semánticas más complejas http://linguistic.linkeddata.es/terminoteca/sparql-editor/
  • 32. Terminoteca RDF Ejemplo: “Dame traducciones al catalán [Termcat] y al alemán [Terminesp] del término en español ‘amplificador’, indicando el origen de los datos y el dominio de aplicación.” 32 wr_target provenance subject "amplificador"@ca http://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s ocietat%20de%20la%20informacio.xml "Electrònica"@ca "amplificador"@ca http://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr onica%20i%20dels%20materials%20electrics.xml "Electrònica"@ca "amplificador"@ca http://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s ocietat%20de%20la%20informacio.xml "Societat de la informació"@ca "amplificador"@ca http://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr onica%20i%20dels%20materials%20electrics.xml "Societat de la informació"@ca "amplificador"@ca http://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s ocietat%20de%20la%20informacio.xml "Telecomunicacions"@ca "amplificador"@ca http://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr onica%20i%20dels%20materials%20electrics.xml "Telecomunicacions"@ca "Verstärker"@de http://www.wikilengua.org "Verstärket"@de http://www.wikilengua.org
  • 33. Terminoteca RDF 33 Ejemplo: “Dame las siglas [de Termcat] asociadas a las entradas en inglés que vengan de Terminesp [y que no tenían siglas asociadas, inicialmente].” label initialism "code division multiple access"@en "CDMA"@en "time division multiple access"@en "TDMA"@en "light-emitting diode"@en "LED"@en "unipolar transistor"@en "FET"@en "N-channel field-effect transistor"@en "N-FET"@en "database management system"@en "DBMS"@en "frequency division multiple access"@en "FDMA"@en "low-noise amplifier"@en "LNA"@en "automatic gain control"@en "AGC"@en "programmable logic controller"@en "PLC"@en "alternating current"@en "AC"@en "direct current"@en "DC"@en "programmable logic device"@en "PLD"@en
  • 35. Conclusiones • Los datos enlazados pueden ser de utilidad para los recursos lingüísticos en general y las terminologías en particular • Iniciativa Terminoteca RDF: crear un grafo unificado de terminologías en España basado en técnicas de datos enlazados • Validación y enriquecimiento de los datos, y enlazado a otras fuentes • Futuros pasos: • Enlace con otras terminologías y fuentes de datos (ej.: IATE, DBpedia, Apertium) • Evolución más allá de estado de “prototipo” de investigación • Interacción más directa con los propios procesos de creación/validación/publicación de datos de Terminesp y Termcat 35