La representación de los contenidos digitales: de los tesauros automáticos a las folksonomías - Presentation Transcript
La representación de los contenidos digitales: de los tesauros automáticos a las folksonomías
José A. Moreiro González
Universidad Carlos III de Madrid
[email_address]
Valencia, CALSI, 2007
La mayoría de los sistemas de representación se generó antes de que existiera el ciberespacio
La nueva matriz cultural sigue inacabada
Los documentalistas del siglo XXI se enfrentan al problema de inventar, adaptar y mejorar la nueva generación de sistemas simbólicos
Obstáculos para explotar las potencialidades de lo digital
1. Multiplicidad de sistemas simbólicos
Inadaptación de los sistemas de identificación, heredados de la era de la imprenta
Multiplicidad e incompatibilidad de taxonomías, tesauros, terminologías, ontologías y sistemas de clasificación
Obstáculos para explotar las potencialidades de lo digital
2. Dificultades informáticas para alcanzar el significado de los documentos
Basan sus investigaciones en cadenas de caracteres, no en conceptos. Así, al buscar la palabra “gato”, es tratada como la sucesión de caracteres “g, a, t, o” y no como un concepto .
Las Ciencias Naturales (siglos XVI - XX) alcanzaron un sistema de coordenadas y unidades de medida universales
Desde entonces, la comunidad científica usa un conjunto de instrumentos simbólicos y conceptuales independientes de las lenguas naturales:
altamente formalizado
lógicamente coherente
ampliamente compartido
Marco positivista de representación de la Información Lenguaje normalizado para garantizar una comunicación inequívoca Léxico como si sólo fuese una nomenclatura o taxonomía El sustantivo como forma de representación privilegiada Búsqueda del modelo de las ciencias más formalizadas , sin las imperfecciones de los discursos de las ciencias humanas Búsqueda prioritaria de la precisión, objetividad y claridad del lenguaje Tecnología cuyas reglas debe observar el usuario Función pedagógica de la Documentación Documento como soporte del conocimiento Preponderancia de las relaciones jerárquicas (taxonomías) Formas apriorísticas de representación: categorías universales
Marco postmoderno de representación de la Información Léxico más cercano al lenguaje natural Cada documento contiene un modelo léxico Utilización de toda la riqueza expresiva del lenguaje El lenguaje considerado a partir de su función comunicativa Relativización por el contexto o situación del discurso Sistemas de información como instrumentos del proceso de mediación El usuario como sujeto de la interpretación Preponderancia de las relaciones asociativas Categorías funcionales
Bases epistemológicas de la representación de la información
Aristóteles ( Retórica ) consideró a los predicamentos como los conceptos más generales a los que alude la expresión del pensamiento
Leibniz ( De Synthesi et Analysi universali ) los redujo a solo cinco categorías
Kant ( Crítica de la razón pura ) limitó aún más las categorías de los conceptos puros del entendimiento: Cantidad, Cualidad, Relación y Modalidad
La recuperación terminológica de la información: evolución
1. El acceso a la información por materias, antecedente de los lenguajes documentales. Estados Unidos, 1876. La Clasificación decimal de Dewey y Rules for a Dictionary Catalog de Cuter
2. La Fontaine y Otlet. Instituto Internacional de Bibliografía . RBU -> CDU -> permitir la cooperación bibliográfica internacional. CDU : sistema de representación codificado. Taxonomía (positivista) y Asociación (de transición)
3. Segunda Guerra Mundial. Acumulación de información. Vannevar Bush avanzó la recuperación mediante combinaciones lógicas: sustitución de los sistemas jerárquicos por la asociación de conceptos
Dentro de cada campo semántico, los descriptores mantienen las relaciones ya propuestas por Aristóteles: género , subtipo y diferencia . En estas relaciones interconceptuales está la causa del orden jerárquico (facetas en que se clasifica y desarrollo de estas).
Tesauro: Lista asociada de descriptores formada con las posibilidades de representación de los conceptos generales de los documentos de un dominio concreto.
Tesauros. Red conceptual
Un mismo concepto puede ser genérico por su relación con las ideas a las que se extiende, y especie por su subordinación a otra más general:
Con un género supremo: Top Term o Macrodescriptor.
Con géneros y especies subordinados (intermediarios): Middle Term (Submacrodescriptor).
Y específicos de diferente nivel:
Especie especialísima: Genéricos.
Individuos: Específicos.
Tesauros. Red conceptual
El movimiento de Port-Royal planteó los conceptos lógicos de:
Definición , para explicar la quididad de la cosa (En los tesauros, la Scope note concreta el significado de algunos descriptores).
División que clarificaba una definición por la diferencia de una especie con otras (asociaciones entre términos de la misma categoría).
Tesauros. Red conceptual
Ramón Llull ( Logica nova ) propuso las diez reglas generales de cuestionar que subyacen a cualquier hecho comunicativo (Decámetro hermenéutico). En ellas están ya las razones de asociar términos:
Utrum -> si es o no
Quid -> qué es
De quo -> de qué es
Quare -> por qué es
Quomodo -> de qué manera
Ubi -> dónde es
Quando -> cuándo es
Quantum -> cuánto es
Cum quo -> con quién es
Quale -> cuál es
Sintaxis del tesauro
Determinada por su macroestructura global y por la consiguiente superestructura, que establecen las normas de :
Ordenación (parte clasificatoria)
Subordinación (parte jerárquica)
Asociación (completa la parte alfabética), refleja la concepción postmoderna del lenguaje
La macroestructura cumple una doble función :
Fracciona el corpus de términos,
Guía hacia la situación exacta de los términos dentro de la superestructura.
Uso de tesauros : ventajas y desventajas
Desventajas
Sin mecanismos para compartir información en la Web (hasta la aparición de SKOS). Están pensados para dominios re s tringidos.
Adición de relaciones complicada.
Reglas de nombrado según el estándar, de automatización complicada.
Es un vocabulario, sin relación directa con los objetos.
Creación por consenso previo de creadores, no de usuarios.
Coste elevado en la creación, mantenimiento y funcionamiento, evitables sólo con la automatización.
Ventajas
Sencillos de crear y gestionar
Algunos muy probados
Son legibles
Grado de coherencia generalmente alto
Eficacia probada
Abundancia de tesauros
Buen punto de partida para crear ontologías
Los tesauros proporcionan las respuestas a las preguntas de los usuarios .
El Qué sigue siendo actual
El Cómo supone adaptarse a las nuevas necesidades
Años 90
Internet y su enlace hipertextual de documentos obligó a diferenciar la representación de los contenidos:
Tesauros conceptuales
Tesauros de verbos
Mapas de conceptos
Topic maps
La dinamización del tesauro con nuevas relaciones, en número mayor e identificadas, para mejorar la representación y aumentar la precisión y eficacia
Navegación, representación gráfica, con grafos explícitos de conexiones de la información
Taxonomías y lenguajes documentales
Las taxonomías están presentes en los
Esquemas de clasificación, Tesauros, Modelos conceptuales y Ontologías
En la actualidad, las taxonomías se aplican en el mundo empresarial e institucional
Organizan y gestionan los recursos digitales que alojan en sus servidores Web
Buscando categorizarlos y la navegación por ellos
Taxonomías
Red semántica de conceptos interrelacionados para cubrir las necesidades empresariales y la forma con que los trabajadores se relacionan con la información
Cada organización tiene unos procesos que conectan la experiencia y características del personal propio
Permite a los usuarios clasificar las materias dentro de jerarquías
Términos autorizados, definiciones que usa una organización para clasificar sus contenidos
La taxonomía organiza no sólo los contenidos propios de una organización, sino también servicios, productos y recursos humanos
Términos y Taxonomías
Cobertura
Basada en el contexto de aplicación
Fácil de modificar
Estructura
Depende del contexto de aplicación
Dinámica
Términos
Categorías representadas por entradas etiquetadas orientadas hacia el usuario
Ideas combinadas.
Términos relacionados conceptualmente.
Contigüidad.
Relaciones asociativas por definición.
Relaciones asociativas trasladadas por significado.
Relaciones asociativas con idéntica jerarquía.
Cuestiones de finalidad.
Relaciones asociativas sin especificar.
Cada uno de estos subtipos ofrece subdivisiones. Lo que ha multiplicado el número de relaciones asociativas presentes en un tesauro.
En los procesos automatizados s e aprecia un incremento pragmático de las relaciones, en especial las de asociación (Tudhope, Alani y Jones):
Tesauro Conceptual, red semántica en la que cada nodo contiene un único concepto que puede llevar asociados una serie de descriptores, identificados según las típicas relaciones de los tesauros:
. preferenciales,
. jerárquicas o
. asociativas.
a) Listan todas las palabras “no vacías” existentes en las bases de datos
b) consideran los términos coloquiales, también las variaciones y truncamientos de los términos reconocidos
c) aportan notas definitorias que aclaren las posibles dudas de uso
d) razonan las equivalencias existentes entre términos
e) contienen numerosas relaciones asociativas entre descriptores, e incluso con los no descriptores
Rasgos novedosos respecto a los tesauros convencionales
Funcionamiento. Ante una demanda, establecen enlaces entre el usuario y las bases terminológicas, mezclando en la recuperación el lenguaje controlado y diccionarios lingüísticos. Manejan:
a) analizadores morfológicos y sintácticos, con marcos semánticos, para evitar la indeterminación de las palabras y de sus relaciones.
b) bancos de datos terminológicos, con los conceptos resultantes del análisis de originales de un dominio.
c) procedimientos de Inteligencia Artificial que permiten búsquedas automatizadas en diferentes bases de conocimientos multilingües.
Uso de ontologías
Para mejorar la precisión de las recuperaciones aprovechan el diseño de ontologías por áreas del conocimiento desde las que se autogeneran tesauros conceptuales que:
distinguen los sinónimos,
suprimen los homónimos e
inducen a relaciones asociativas entre los descriptores.
Una ontología para una base de conocimientos debe abarcar:
los diferentes tipos de documentos,
las descripciones conceptuales,
las relaciones entre dichos documentos (citas), y
las de estos con los diferentes problemas científicos; además de índices, descripciones bibliográficas, tesauros, códigos clasificatorios, formalizaciones de validez, información terminológica, etc.
La elaboración de los tesauros conceptuales no está muy lejos de los resultados que se obtienen en los programas de indización automatizada.
Son similares la extracción y la normalización de vocabulario.
Si después se representan los términos mediante algún tipo de relación, como las infográficas, estamos cerca de formalizar un lenguaje combinatorio
Coincidencia con el procesamiento seguido por los programas más avanzados de indización automática
Análisis léxico textual
Procesos de filtrado para eliminar previamente los términos vacíos: algoritmos IDF y N-grams .
Lematización de los términos flexionados mediante algoritmos de stemming (número de n-grams grupos de letras).
Tratamiento de palabras compuestas.
Mediante redes neuronales, se crean bases de conocimientos terminológicas con las que se establecen búsquedas automatizadas en Internet.
Obtención e integración de relaciones
Obtención de asociaciones temáticas entre componentes (clusterización - clases de descriptores con características comunes): clasificadores Cienciométricos : Co-wording; Estadísticos : Max-min, K-vecinos, K-vecinos incremental, Isodata; Neuronales : Kohonen, Art-1, Art-2.
C onstrucción de la representación del dominio: cálculo del centroide (descriptor más general del cluster).
Proceso de generación de relaciones semánticas para dos descriptores dados.
Otra de las propuestas de mejora de los tesauros es la inclusión de verbos que complementen a los tesauros estáticos tradicionales de sustantivos (Levin).
Está causado por la necesidad de mejorar la precisión cuando se trata, por ejemplo, de reutilizar software o de recuperar imágenes en movimiento.
Ventajas que aporta el uso de descriptores verbales:
Posibilidad de indizar imágenes de video mediante gerundios
Identificar mediante verbos asociaciones funcionales mucho más adaptables a dominios concretos
Posibilidad de mostrar la relación existente entre dos conceptos usando las posibilidades innumerables del lenguaje natural (categorías verbales a modo de relaciones facetables)
Desambiguación conceptual
R elacionar conceptos mediante verbos en labores de recuperación plantea posibilidades semánticas diferentes a las de los tesauros tradicionales:
* Se pueden mostrar los agentes que interaccionan con el sistema y cómo lo hacen (casos de uso).
* También permite mostrar los diagramas de secuencia y actividad.
La integración verbal procede del área pedagógica: los mapas conceptuales ( concept maps ).
Antecedente: la base de datos de referencia léxica WordNet , con relaciones de equivalencia y de jerarquía entre diferentes categorías gramaticales, para desambiguar conceptos, en especial mediante el uso de verbos
Mapas conceptuales
Técnica para representar el conocimiento en gráficas cognitivas -> redes de conceptos que se componen :
de nodos (puntos / vértices) que representan conceptos y
de enlaces ( arcs : arcos / edges : extremos, satélites) que representan las relaciones entre los conceptos
Rasgos de los mapas conceptuales
Técnica desarrollada por Joseph Novak en los años 60 para ayudar a enseñar y aprender en las clases.
Se basó en que el conocimiento se representa por frases simples con estructura:
Sujeto - verbo – predicado;
Como una asociación: concepto -> relación -> concepto.
Estas relaciones pueden representarse mediante grafos en los que las ideas o los conceptos se sitúan en los nodos, y las relaciones en los enlaces.
De forma que un documento o dominio del conocimiento puede representarse por un conjunto de conceptos interrelacionados y dispuestos como un grafo.
Ejemplo: Mapa Conceptual Se habla de la Tiene lugar en Se celebran congresos como y del Futuro de Internet CALSI2007 Valencia Web semántica Sociedad de la información
Justificación
El crecimiento de la Web y de las Bases Datos a texto completo
Necesidad de navegar de modo hipertextual mediante estructuras cognitivas
Problemas asociados a la búsqueda de la información: s obrecarga informativa y desorientación
Asociaciones en los Mapas Conceptuales
Las asociaciones entre conceptos no están normalizadas, pero suelen referirse a:
Conjunto - Miembro del conjunto;
Todo - Parte;
Relaciones específicas (x influencia y, está cerca de, lleva a, etc.);
Relaciones físicas (sobre, debajo, cerca...);
Relaciones temporales (antes, después);
Relaciones lógicas (causa, efecto);
Relaciones jerárquicas.
Definición: Topic Map
Un topic map es un documento, o un conjunto de documentos SGML o XML interrelacionados en un espacio multidimensional en el que las localizaciones son topic.
ISO/IEC 13250: 2000. SGML-Topic Maps
ELEMENTOS DEL TOPIC MAP
Topic p.e. <SISOFT>
Topic type p.e. <jornadas científicas>
Association <tiene lugar en>
Association type <tener lugar en> (localización)
Scope (ámbito en el que una relación tiene sentido) theme <Sociedad del conocimiento>
Topic occurrence (http:// www.sisoftw.com)
Occurrence type (p.e. Página web)
Ejemplo: Topic Map Tener lugar JOTRI Jornadas científicas Localización www.fiv.upv.es/jotri Documentación/informática www.fiv.upv.es Web page TOPIC TOPIC TYPE ASSOCIATION TYPE SCOPE OCURRENCE TYPE PUBLIC SUBJECT TOPIC OCURRENCE ASSOCIATION
Comparación TESAUROS ISO 2788:1986 TOPIC MAPS ISO 13250:2000 MAPA CONCEPTUAL Sin norma Control de vocabulario a priori. Control de vocabulario ad hoc Control de vocabulario ad hoc Relaciones entre descriptores Relaciones usualmente mediante verbos Relaciones mediante verbo+ preposiciones/ sustantivos/ conector lógico Tipología de relaciones: jerarquía, equivalencia y asociación Tipología de relaciones: número potencialmente infinito No existe tipología de relaciones universal
Comparación TESAUROS TOPIC MAPS M. CONCEPTUAL Las relaciones no son descriptores Una relación puede ser un topic (verbos como topic ) Una relación no puede ser un nodo Trabaja con términos normalizados a priori Las variaciones ortográficas son normalizadas a posteriori Trabaja con términos no normalizados Los descriptores son definidos a priori Los topics se define mediante sus occurrences y associations Los nodos se definen subjetivamente
Folksonomías
Práctica de indización cooperativa que asigna palabras-clave para organizar la información en categorías de manera espontánea y libre
Arquitectura de información social y cooperativa, en la que cada usuario escoge lo que más se ajusta a su entendimiento
Thomas Vander Wal propuso el neologismo.
Folk + sonomy = gente + taxonomía, clasificación cooperativa
No es esencial construir una jerarquía. Si lo es poder emplear etiquetas semánticas para efectuar la indización.
Una folksonomía tiene que cumplir estas condiciones:
que sea explícita
que pueda agregarse
que suponga ventajas para los usuarios (ésta es la razón de agregar etiquetas)
que sea relevante para los propósitos e intereses de un sitio web.
Del.icio.us social bookmarks
G estor social de sitios web favoritos (bookmarks) permite:
- añadir a los favoritos las páginas deseadas,
clasificar mediante palabras-clave,
e intercambiar esta información con otros usuarios
Limitación: no deja introducir espacios entre palabras, con lo que la folksonomía se conforma solo con unitérminos
Flickr , http://www.flickr.com/
Sitio web sobre fotografía donde usuarios de cualquier lugar pueden compartir fotos poniéndolas en disposición de consulta mediante la asignación de palabras-clave. El propio usuario clasifica cada fotografía de acuerdo con lo que le sugiere
Folksonomías frente a tesauros Los vocabularios controlados no son aplicables ni económicamente extensibles a la mayoría de los casos donde pueden usarse metadatos. Su construcción, mantenimiento y aplicación resultan demasiado costosos tanto en tiempo de desarrollo como en tiempo necesario para que el usuario aprenda el esquema de clasificación Mantener una taxonomía se ha hecho muy difícil. De manera que las folksonomías son una solución cuando la clasificación tradicional no es viable
¿Para qué sirven las folksonomías? Las folksonomías funcionan porque son eficaces para los usuarios a la hora de ordenar su información Son unos sistemas simples y emergentes, que se alejan de la manera tradicional de clasificar desde arriba hacia abajo. Su ventaja proviene de la capacidad de emparejar las necesidades verdaderas de los usuarios y la lengua, no de buscar su precisión
¿Para qué sirven las folksonomías? Abandonar las taxonomías por las listas de palabras-clave no es nuevo Se benefician del vocabulario personal y de la contribución social para ayudar a encontrar en la web y controlar los objetos que son interesantes L as folksonomías incluyen cada una de las palabras propuestas, sin dejar ninguna fuera. No hay una autoridad central que imponga su visión: cada voz tiene su lugar
Debilidades de las folksonomías La folksonomía carece de lenguaje controlado, pues no tiene jerarquías ni otro tipo de asociaciones más allá de los posibles clusters de recursos que se puedan formar según las clasificaciones o palabras-clave de los usuarios Por ello, la ambigüedad es muy alta. Para un usuario, un término tiene un significado o puede expresar una realidad completamente distinta a la de otro usuario No hay guías de uso, ni restricciones a cómo etiquetar los contenidos
Debilidades de las folksonomías Falta de consistencia debida a la ausencia de control de sinónimos. Como ejemplo, a la hora de denominar un ordenador Macintosh, puedan emplearse las etiquetas “mac”, “apple”, “macintosh” Cierta imprecisión derivada de que se utilizan etiquetas solo con unitérminos Empleo indistinto de singulares y plurales Y, por supuesto, cuanto se deriva de la ausencia de jerarquía y de los propios tipos de contenidos analizados (bookmarks, fotos)
1 comments
Comments 1 - 1 of 1 previous next Post a comment