Lenguajes Documentales

18,679 views

Published on

Presentación sobre los diferentes tipos de lenguajes documentales y su posible utilidad para los estudiantes de Traducción e Interpretación. Hacemos especial hincapié en tesauros y ontologías

Published in: Education, Technology, Business
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
18,679
On SlideShare
0
From Embeds
0
Number of Embeds
48
Actions
Shares
0
Downloads
247
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide
  • El pasado día habíamos hablado de lo que eran las unidades de información y su principal objetivo: recuperación de la información. Como todo proceso de comunicación pone en contacto a los emisores con los destinatarios
  • Dar importancia
  • La indización pertenece a las tareas bibliotecarias que habíamos contado el otro día de análisis del contenido ¿de qué tratan los documentos? En dar puntos de acceso a los documentos para poder ser recuperados. La indización puede ser: Por materias o clasificación: utilizan los sistemas de clasificación Por conceptos a descriptores Por palabras clave
  • Característica del lenguaje natural es la sinonimia (existencia de + de un término o de una palabra para caracterizar un objeto), polisemia : cura – si haces una búsqueda utilizando cura$ en lenguaje natural, puede producir ruido: cura – sacerdote, cura- de sanar, curar (Clerigo$ OR sacerdote$ OR religioso$ OR cura$ OR presbítero$)
  • Para el ejemplo de antes un Ld seleccionará uno de los términos y los otros los debe incluir para que el usuario pueda encontrarlos pero remitiendo al seleccionado. Debe incluir en su terminología el mayor número posible de notas de relación de un termino a otro y notas explicativas. LD lenguaje no natural aunque utiliza los signos de éste.
  • Palabras vacías: artículos, preposiciones, conjunciones, pronombres, adverbios) Palabras-clave: fichero inverso en una base de datos. ventajas: costes de creación y mantenimiento muy bajos y actualización inmediata Inconvenientes: ruido y silencio documental a la hora de recuperación Ejemplo de listado de palabras-clave en Google: pobres iran reino cielos claro biblia Descriptores libres: ventajas a la hora de la indización ( los términos no deben de traducirse a un lenguaje controlado ni se deben normalizar) inconveniente: complejidad en las búsquedas, ruido documental
  • Autoridades : Uno de los LD controlados más básicos, por la simplicidad de su estructura. Al igual que los descriptores libres, reúne conceptos expresados por palabras y expresiones del lenguaje natural, pero la diferencia es que el listado de autoridades es un vocabulario finito y cerrado . Sólo los términos que figuran en el listado se pueden usar para indizar y recuperar la información. Hoy en día se habla más de catálogo de autoridades (nombres de personas, materias, geográfico ,etc.) porque utiliza unas normas internacionales de control (GARE) y un formato electrónico IBERMARC . Encabezamientos de materia tratan de condensar la materia de un libro (materia tema sobre el que trata) Son controlados y enciclopédicos.
  • Cualquier persona puede contribuir y compartir sus etiquetas. Positivo: -Evita la obsolescencia de los términos de los lenguajes controlados (tesauros, ontologías, clasificaciones) -Resulta fácil de crear y de mantener -Al ser colaborativo y democrático, los errores van autorregulándose. Permiten describir la información y los objetos según el punto de vista de los usuarios Desventajas: Como todos los vocabularios no controlados: ambigüedad, polisemia, sinonimias, falta de control a la hora de escribir de forma específica o más general las mismas cosas. Es tan abierta que no otorga una guía de uso a la hora de aplicarlas, como deben usarse, puntuación, orden de las palabras, plurales en vez de singulares, si se deben usar palabras compuestas o simples... Sinónimos: folksonomías, etiquetado social, tagging Los más usados tienen más peso y están más destacados y más grandes (ver los que más tienen)
  • http://trobes.uv.es/record=b1689619*spi Ejemplo CDU Sistema de clasificación jerárquico y alfanumérico que divide el conocimiento en 10 grandes grupos (tablas principales). Cada una de las tablas principales se subdivide en otras 10 subcategorías. Su estructuración se basa en el principio decimal. Tiene carácter enciclopédico, abarca todo el conocimiento humano. Útil para unidades de información interdisciplinares Los conceptos y las relaciones existentes entre ellos se representan abreviadamente por medio de signos alfabéticos, numéricos o alfanuméricos Cdu : es la que nos vamos a detener más porque es la que está más extendida en España, utilizan entre otras las bibliotecas públicas Dewey : clasificación surgió en el S.XIx lleva el nombre de su creador melvin Dewey, EEuu . Es una de las clasificaciones más utilizadas por todo el mundo y ha servido como marco de referencia a otros lenguajes de clasificación de todo el mundo. S. XX. CLC, sistema jerarquico y sus clases principales se distribuyen en 21 grupos temáticos. Su uso está bastante extendido, sobre todo en bibliotecas universitarias de carácter enciclopédico y por la importancia de la biblioteca del congreso de Washington CDU es la que nos vamos a deterner un poco más porque es la que se utiliza en españa. En las bibliotecas públicas. Dewey surgió en el s. XiX por su creador Melvin Dewey (EEUU) es una de las clasificaciones más utilizadas en todo el mundo y ha servido como marco de referencia a otros lenguajes de clasificación posteriores LCC no es un sistema unitario, sino compuesto por clasificaciones específicas para cada materia, sistema jerárquico, clases principales Ranganathan: Clasificación muy complicada que no ha tenido éxito fuera de la india
  • La ventaja frente a los lenguajes clasificatorios cuya función es describir el tema de un documento, los términos contenidos en un tesauro responden al análisis del texto o materia. Un tesauro recoge todos los conceptos y no sólo los que corresponden al título o el texto. Un único tema (de lo que trata el documento) suele desarrollarse mediante una serie de ideas o conceptos q se pueden describir por medio de una serie de términos
  • Descriptores o términos preferentes: Términos que representan de manera unívoca un concepto y que se utilizan para indizar y recuperar el contenido de un documento. Esta univocidad se consigue: Seleccionando el descriptor entre sus sinónimos Estableciendo una relación semántica (de significado) con el resto de los descriptores del tesauro No descriptores o términos equivalentes o término no preferentes: Forman parte del tesauro, pero no se pueden utilizar en la indización ni en la recuperación de los documentos. Son sinónimos o cuasisinónimos de un descriptor del tesauro, con el cual establecen una relación de equivalencia. Ayudan al usuario y al analista a localizar entre los diferentes sinónimos de un concepto en el lenguaje natural, el descriptor aceptado en el Tesauro Campos semánticos o microdisciplinas: Sirven para agrupar descriptores afines en un mismo subconjunto dentro del tesauro. Se establece una relación de pertenencia entre cada descriptor y su campo semántico. No pueden utilizarse en la indización y recuperación de los documentos. Relaciones de equivalencia: Se establece entre los descriptores y no descriptores de un tesauro. Sirve para eliminar la sinonimia del lenguaje natural. Se expresa con las siglas: USE- remite del no descriptor al descriptor UP- remite del descriptor al no descriptor O con los signos: o = Relaciones de jerarquía: Se establecen entre dos descriptores, uno de los cuales es superior al otro en una escala conceptual determinada TG- Término genérico TE- Término específico Relaciones de asociación: Se establecen entre descriptores que presentan alguna característica común, pero que pertenecen a diferentes campos semánticos. Ayudan en la indización y en la consulta ya que proporcionan nuevos descriptores que permiten formular asociaciones de ideas. TR- Término relacionado Notas y aclaraciones: Nota de alcance o de aplicación: Permite precisar el significado de un descriptor, evitando su ambigüedad. NA- Nota de aplicación NE- Nota explicativa Presentaciones del tesauro Alfabética Sistemática o jerárquica Gráfica Permutada (índices KWIC o KWOC)
  • MOTBIS muy utilizado en ciencias de educación francés, La elaboración y puesta al día por diversos especialistas en educación y documentación Se puede buscar por listado permutado o listado alfabético y en el entorno semántico directo de un término. . Los resultados de la primera aparecen en los índices permutados, en el que aparecen marcados los términos buscados, el siguiente muestra el descriptor en sus relaciones semáticas en un gráfico. Thesaurus of Aging terminology: Utilizada en la base de datos sobre gerontología y otras disciplinas afines. Para ayudar a las tareas de indización y recuperación. Su contenido sólo se puede consultar a través de un documento pdf dos índices uno alfabético y otro permutado KWIC. Entar en los nuevos términos de la 8º ed. Thesauro en sí p. 33
  • Tesauro jurídico trilingue (alemán, francés e italiano) elaborado por el tribunal federal y distintas bibliotecas jurídicas suizas. Hay que elegir la lengua fuente y de destino. La actualización del contenido del tesauro se realiza cada dos semanas. Proceso de actulización se incluyen dos formularios para q los usuarios planteen términos (descriptores y no descriptores) nuevos o modificaciones de los ya existentes
  • Surgieron ya en los años 90. Un instrumento que define los términos básicos y relaciones a partir de un vocabulario de un área así como las reglas combinatorias de estos términos y relaciones: como se puede observar los paralelismos con el tesauro es evidente, en especial en lo tocante a la delimitacion de los términos de deben formar parte de la construcción DOMINIO: área específica de interés (por ejemplo: el río Ebro) o un área de conocimiento (Física, Derecho, Medicina)
  • Es un paso más en la evolución de los lenguajes documentales, cuyo objetivo, en nuestros días es evitar la saturación de información que sufrimos En las ontologías el significado de las cosas queda explicado por medio de atributos de las características que son propias de dichas cosas y no de una representación léxica. Favorecer la comunicación entre personas, organizaciones y aplicaciones ya que posibilitan la comprensión de un dominio, eliminando ambigüedades de conceptos y de terminología. Obtener la interoperabilidad de los sistemas, es decir, para que trabajen de forma conjunta de forma automática, sin que el usuario tenga que hacer nada. Facilitar el razonamiento automático, sin intervención humana. Hacen que una máquina no puede comprender la información que procesa en ningún sentido profundo de la expresión. Pero si los datos que se procesan están estipulados semánticamente mediante ontologías es posible que la ia simule la forma de inteligencia humana
  • La utilización de ontologías ha ayudado al surgimiento de la web semántica. Web en la que cualquier usuario en I. podrá encontrar respuestas a sus preguntas de forma + rápida y sencilla gracias a una información + definida quiero un viaje a Roma en hotel de 3 estrellase en el centro En la web actual Hago la búsqueda y me da un listado de hoteles de ahí yo hago la selección manualmente. En la web semántica le preguntaría: quiero un viaje a Roma en hotel de 3 estrellas, etc. Lo q te contestaría sería el mejor hotel que está centrico tiene x habitaciones, etc… cercano al metro, con al precio tal, e incluso te harían la reserva. Te da el trabajo ya hecho los resultados RSS Vocabulario que permite la catalogación de información (noticias y eventos) de tal manera q sea posible encontrar información precisa adaptada a las preferencias de los usuarios. Estos archivos RSS notifican de forma automática cualquier cambio que se realice en esos recursos de interés seleccionados. Aplicación a las noticias de comillas Los resultados en los buscadores tradicionales tienen poca relevancia, mientras que en un buscador semántico los resultados son respuestas concretas a una pregunta con mayor precisión y exactitud
  • La utilización de ontologías ha ayudado al surgimiento de la web semántica. Web en la que cualquier usuario en I. podrá encontrar respuestas a sus preguntas de forma + rápida y sencilla gracias a una información + definida quiero un viaje a Roma en hotel de 3 estrellase en el centro En la web actual Hago la búsqueda y me da un listado de hoteles de ahí yo hago la selección manualmente. En la web semántica le preguntaría: quiero un viaje a Roma en hotel de 3 estrellas, etc. Lo q te contestaría sería el mejor hotel que está centrico tiene x habitaciones, etc… cercano al metro, con al precio tal, e incluso te harían la reserva. Te da el trabajo ya hecho los resultados RSS Vocabulario que permite la catalogación de información (noticias y eventos) de tal manera q sea posible encontrar información precisa adaptada a las preferencias de los usuarios. Estos archivos RSS notifican de forma automática cualquier cambio que se realice en esos recursos de interés seleccionados. Aplicación a las noticias de comillas
  • Ejemplo de una búsqueda en Wolfrang: área de un círculo
  • Lenguajes Documentales

    1. 1. DOCUMENTACIÓN APLICADA A LA TRADUCCIÓN Otras fuentes de información para encontrar términos: los lenguajes documentales Belén Novoa García (benogar@gmail.com) Marta Soto González (fumartas@gmail.com)
    2. 2. <ul><li>Para que sea posible recuperar la información contenida en los documentos, necesitamos un sistema que nos permita establecer una comunicación entre los emisores de la información y los destinatarios (usuarios) </li></ul><ul><li>LOS LENGUAJES DOCUMENTALES </li></ul>Introducción
    3. 3. El lenguaje documental es utilizado por El documentalista El usuario Al indizar los documentos para describir sus contenidos Cuando hace una búsqueda documental, al interrogar a una base de datos, a un catálogo o a un documentalista, para satisfacer su necesidad de información Para el traductor : como fuente de información de calidad en la búsqueda de terminología
    4. 4. La indización <ul><li>La indización consiste: </li></ul><ul><li>- En la búsqueda de conceptos presentes en el documentos. </li></ul><ul><li>- En la traducción de esos conceptos para pasar del lenguaje natural del autor al lenguaje documental. </li></ul>
    5. 5. ¿Por qué surgen los lenguajes documentales? <ul><li>Lenguaje natural: lenguaje en que está escrito un documento: </li></ul><ul><li>Cura </li></ul><ul><li>Sacerdote </li></ul><ul><li>Presbítero </li></ul><ul><li>Pastor </li></ul><ul><li>Religioso </li></ul><ul><li>Provoca ruido y silencio documental en el momento de la recuperación. </li></ul>http://conceptspace.london.edu/
    6. 6. Lenguajes documentales: Características <ul><li>Objetivo del control del vocabulario es facilitar la representación de las materias </li></ul><ul><li>Simplifica el lenguaje natural </li></ul><ul><li>Evita la sinonimia y la polisemia </li></ul><ul><li>Univoco: un único término y un único concepto </li></ul><ul><li>Evitar la ambigüedad </li></ul><ul><li>Algunos lenguajes documentales resuelven los problemas planteados por el multilingüismo (tesauros multilingües y lenguajes de clasificación numéricos) </li></ul>
    7. 7. <ul><ul><li>Vocabularios alfabéticos de todos los términos significativos (que no sean palabras vacías) extraídos del título, resumen o texto completo de los documentos, de forma automática. Por ejemplo: Google </li></ul></ul><ul><ul><li>http://www.google.es/ </li></ul></ul><ul><ul><li>Palabras-clave </li></ul></ul><ul><ul><li>Descriptores libres </li></ul></ul>Vocabulario alfabético de términos seleccionados propuestos por el analista después del examen del documento. Por ejemplo: Listado de descriptores de la base de datos del ISI WEB OF KNOWLEDGE (author keywords) TIPOS DE LENGUAJES DOCUMENTALES Tradicionalmente se controlaban las autoridades de materia aparte. Reunían bajo una palabra o frase uniforme todos los documentos existentes sobre un tema y agrupaban en el mismo lugar del catálogo todos los documentos que tratan sobre un mismo tema. Listado de encabezamientos de materia de para las bibliotecas públicas <ul><ul><li>Listados de encabezamientos de materia </li></ul></ul>
    8. 8. <ul><ul><li>Catálogo de autoridades o descriptores controlados </li></ul></ul>Catálogo de términos controlados y destinados a representar de manera unívoca el contenido de un documento. Controla de nombres de personas, organismos, entidades, topónimos, materias, etc. Catálogo CSIC de Autoridades http://aleph.csic.es/F/LLMDFH6PUGUS6363HE71K931M2E464CCYJCFXQFYLJ6T11ARSV-14515?func=file&file_name=find-b&local_base=MAD10 Catálogo de autoridades de la Library of Congress http://authorities.loc.gov/cgi-bin/Pwebrecon.cgi?DB=local&PAGE=First Autoridades de WorldCat http://www.worldcat.org/wcidentities/lccn-n94-112934#linkfastheadings Autoridades de la Wikipedia http://en.wikipedia.org/wiki/Barack_Obama
    9. 9. <ul><ul><li>Lenguaje de etiquetas (tags) </li></ul></ul>Palabras elegidas por el usuario que reflejan, según su propio criterio, el contenido de la información. Es un sistema completamente abierto y democrático, ya que se basa en la colaboración de personas que cooperan para clasificar la información. http://webcat.hud.ac.uk/ipac20/ipac.jsp?profile=cls#focus
    10. 10. <ul><ul><li>Sistemas de clasificación </li></ul></ul>Conjunto ordenado de conceptos que se presentan distribuidos sistemáticamente en clases constituyendo una estructura. <ul><li>Principales </li></ul><ul><li>Clasificación Decimal Universal (CDU) http://www.taranco.eu/cdu/cdu-esquema.htm#1 </li></ul><ul><li>Clasificación Decimal de Dewey http://espanol.denverlibrary.org/servicios/dewey.html </li></ul><ul><li>Clasificación de la Biblioteca del Congreso de Washington ( http://www.loc.gov/catdir/cpso/lcco/ ) </li></ul><ul><li>Clasificación facetada de Ranganathan </li></ul><ul><li>http://usuarios.lycos.es/colonada/ </li></ul><ul><li>Clasificación Internacional de Patentes (CIP) http://www.wipo.int/classifications/ipc/ipc8trans/es/ipcpub/?lang=es&menulang=ES </li></ul>
    11. 11. Definición <ul><li>Un tesauro es un vocabulario controlado y dinámico, compuesto por términos que tienen entre ellos relaciones semánticas y genéricas y que se aplica a un dominio particular del conocimiento (Norma ISO 2788) </li></ul><ul><li>Lenguaje documental de estructura combinatoria, de carácter especializado que se basa en expresiones conceptuales (descriptores), provistas de sus relaciones semánticas . </li></ul>TESAUROS
    12. 12. Los tesauros <ul><li>Permiten describir el contenido de los documentos de manera más precisa </li></ul><ul><li>Permiten incluir la nueva terminología, cada vez más especializada, de las diferentes disciplinas </li></ul><ul><li>La ordenación sistemática (por temáticas y significados) de los descriptores, como alternativa a la alfabética, facilita la consulta del analista y el usuario </li></ul>
    13. 13. Estructura del tesauro <ul><li>Unidades léxicas </li></ul><ul><li>- Descriptores o términos preferentes </li></ul><ul><li>- Términos equivalentes o “no descriptores” </li></ul><ul><li>- Palabras-herramienta o descriptores auxiliares </li></ul><ul><li>- Campos semánticos </li></ul><ul><li>Relaciones semánticas entre las unidades léxicas </li></ul><ul><li>- De equivalencia </li></ul><ul><li>- Jerárquicas </li></ul><ul><li>- Asociativas </li></ul><ul><li>- Notas y aclaraciones </li></ul>
    14. 14. Ejemplos de tesauros <ul><li>Tesauro de la UNESCO http://databases.unesco.org/thessp/ </li></ul><ul><li>MOTBIS, un thésaurus pour l’éducation </li></ul><ul><li>http://www.thesaurus.motbis.cndp.fr/site/ </li></ul><ul><li>Thesaurus of Aging Terminology </li></ul><ul><li>http://assets.aarp.org/rgcenter/general/thesaurus.pdf </li></ul><ul><li>Macrotesauro de la OCDE </li></ul><ul><li>http://168.96.200.17/ar/oecd-macroth/es/index.htm </li></ul><ul><li>Tesauros del IEDCYT http://thes.cindoc.csic.es/index_esp.html </li></ul><ul><li>JURIVOC </li></ul><ul><li>http://www.bger.ch/fr/index/juridiction/jurisdiction-inherit-template/jurisdiction-jurivoc-home/jurisdiction-jurivoc.htm </li></ul><ul><li>Tesauros gráficos: </li></ul><ul><li>http://www.visualthesaurus.com/ </li></ul><ul><li>http://conceptspace.london.edu/ </li></ul>
    15. 15. Recopilaciones y acceso a otros tesauros <ul><li>Desde Internet: </li></ul><ul><li>Absysnet.com </li></ul><ul><li>http://absysnet.com/recursos/referencia/tesauros.html </li></ul><ul><li>RecBib: Recursos Bibliotecarios </li></ul><ul><li>http://www.recbib.es/book/tesauros </li></ul><ul><li>Mochón Bezares, G., & Sorli Rojo, . (2008). Tesauros </li></ul><ul><li>multidisciplinares en Internet. Revista Española de Documentación Científica, 31 (1). Consultado el December 9, 2008, de http://redc.revistas.csic.es/index.php/redc/article/view/417/429 </li></ul>
    16. 16. Ontologías <ul><li>Vocabularios comunes para personas y aplicaciones que trabajan en un dominio. </li></ul><ul><li>Definen los términos que se usan para describir y representar un dominio. </li></ul>Parte de la filosofía que se ha adaptado a los principios del desarrollo de la inteligencia artificial TODA ONTOLOGÍA REPRESENTA CIERTA VISIÓN DEL MUNDO CON RESPECTO A UN DOMINIO.
    17. 17. Ontologías <ul><li>Las ontologías pueden considerarse lenguajes </li></ul><ul><li>documentales con distintos niveles de </li></ul><ul><li>estructura, pero elaboradas con una sintaxis </li></ul><ul><li>que los ordenadores comprendan. </li></ul><ul><li>No se limitan a clasificar: </li></ul><ul><li>Añaden relaciones (jerárquicas o no) </li></ul><ul><li>Razonamiento </li></ul><ul><li>Semántica </li></ul>Ejemplo: http://wordnetweb.princeton.edu/perl/webwn Ontología de la lengua inglesa
    18. 18. Web semántica: Segunda generación Web o Web 3.0 Fundador fue Tim Berners-Lee, 1998. Todavía está en un temprano estadio de desarrollo, pero construye los cimientos de un nuevo espacio de información Es una extensión de la web actual en la que se da un significado bien definido a la información . BUSCADOR CONVENCIONAL BUSCADOR SEMÁNTICO Palabras clave Pregunta (con significado) Listado de enlaces Respuestas concretas
    19. 19. Web semántica: Segunda generación Web En ella que se podrá encontrar respuesta a preguntas de forma más rápida y sencilla gracias a una información mejor definida ¡¡¡Convertirá en obsoletos los buscadores de hoy!!! http://www.w3c.es/Divulgacion/Guiasbreves/WebSemantica
    20. 20. Proyectos de buscadores semántico Cognition : mapa semántico del idioma inglés clave para procesamiento del lenguaje natural eficaz. Su utilización en apoyo de la web semántica, herramientas de búsqueda, traducción de documentos, etc. http://www.cognition.com/ http://www.cognition.com/info/videodemo.html WolframAlpha : proyecto de buscador de conocimiento computacional http://www.wolframalpha.com/

    ×