Modelado de Documentos y Sistemas de Información con XML  Modelado de Documentos y  Sistemas de Información con           ...
Modelado de Documentos y Sistemas de Información con XML                                                                  ...
Modelado de Documentos y Sistemas de Información con XMLI. INTRODUCCIÓN        El Proyecto fin de Carrera (PFC) es una asi...
Modelado de Documentos y Sistemas de Información con XMLII. OBJETIVOS    Los objetivos del presente PFC son los siguientes...
Modelado de Documentos y Sistemas de Información con XMLIV. RESULTADOS       A continuación se detallan los resultados obt...
Modelado de Documentos y Sistemas de Información con XML      Evolucionar al mismo tiempo que la organización, con un car...
Modelado de Documentos y Sistemas de Información con XML1.1. Los subsistemas de un Sistema Integral de Gestión de la Infor...
Modelado de Documentos y Sistemas de Información con XML            como listas de autoridades, encabezamientos de materia...
Modelado de Documentos y Sistemas de Información con XML       Entendiendo la globalidad y el carácter corporativo de los ...
Modelado de Documentos y Sistemas de Información con XMLde técnicas avanzadas de extracción de información como el Data Mi...
Modelado de Documentos y Sistemas de Información con XMLy “digitalización del texto”, según sea el propósito final de dich...
Modelado de Documentos y Sistemas de Información con XMLuna comunicación asíncrona, entrará en juego el correo electrónico...
Modelado de Documentos y Sistemas de Información con XML        su correo electrónico boletines con las novedades de la ba...
Modelado de Documentos y Sistemas de Información con XML        La aparición de los sistemas WYSIWYG (what you see is what...
Modelado de Documentos y Sistemas de Información con XML         Por medio de XML es posible definir los documentos con el...
Modelado de Documentos y Sistemas de Información con XML2.3. Algunas especificaciones derivadas de XML: RDF, OWL YSKOS-COR...
Modelado de Documentos y Sistemas de Información con XML       Dos documentos pueden usar definiciones diferentes del mis...
Modelado de Documentos y Sistemas de Información con XML       No es muy natural.       No permite definir/ chequear res...
Modelado de Documentos y Sistemas de Información con XML<rdf:RDF  xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" ...
Modelado de Documentos y Sistemas de Información con XML             Crear una base de datos de componentes de documentos...
Modelado de Documentos y Sistemas de Información con XML        teniendo en cuenta el formato en que llegan (si se precisa...
Modelado de Documentos y Sistemas de Información con XML3.3.2. El almacenamiento        En el actual panorama de los siste...
Modelado de Documentos y Sistemas de Información con XML         Por lo tanto, nuestra base de datos documental no contend...
Modelado de Documentos y Sistemas de Información con XML        XQuery es un lenguaje funcional, lo que significa que, en ...
Modelado de Documentos y Sistemas de Información con XML        La propuesta de este trabajo se centra en la posibilidad d...
Modelado de Documentos y Sistemas de Información con XML                      Figura 9. Modelo de conectividad base de dat...
Modelado de Documentos y Sistemas de Información con XMLtoda las estructura de browsing del sistema de recuperación, guian...
Modelado de Documentos y Sistemas de Información con XMLimportantes serán las bases de datos documentales y relacionales d...
Modelado de Documentos y Sistemas de Información con XML                      Figura 11. Proceso de subsistema de publicac...
Modelado de Documentos y Sistemas de Información con XMLindependientemente del formato, sean tratados como objetos de info...
Modelado de Documentos y Sistemas de Información con XMLMARTÍNEZ SÁNCHEZ, J. M.; HILERA GONZÁLEZ, J. R. Los sistemas de ge...
Upcoming SlideShare
Loading in …5
×

Modelado de Documentos y Sistemas de Información con XML

1,961 views

Published on

Mi Proyecto de Fin de Carrera, publicado allá por 2005.

Published in: Technology, News & Politics
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,961
On SlideShare
0
From Embeds
0
Number of Embeds
6
Actions
Shares
0
Downloads
28
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Modelado de Documentos y Sistemas de Información con XML

  1. 1. Modelado de Documentos y Sistemas de Información con XML Modelado de Documentos y Sistemas de Información con XMLProyecto Fin de Carrera de la Licenciatura de Documentación del alumno: José Manuel Sánchez Navarro Dirigido por el profesor: Juan Antonio Pastor Sánchez 1
  2. 2. Modelado de Documentos y Sistemas de Información con XML ContenidoI. INTRODUCCIÓN………………………………………………………………... 3II. OBJETIVOS……………………………………………………………………... 4III. METODOLOGÍA………………………………………………………………. 4IV. RESULTADOS………………………………………………………………… 5 1. Los Sistemas de Información Documental………………………………. 5 1.1. Los subsistemas de un Sistema Integral de Gestión de la Información…………………………………………………………. 7 1.1.1. La base de datos documental…………………………. 7 1.1.2. El correo electrónico………………………………….. 9 1.1.3. El subsistema de base de datos relacional……………. 9 1.1.4. El subsistema de thesaurus…………………………… 10 1.1.5. El subsistema de imágenes y OCR…………………… 11 1.1.6. El subsistema de Workflow…………………………... 12 1.1.7. El subsistema de Groupware…………………………. 12 1.1.8. El subsistema de DSI…………………………………. 13 2. El lenguaje XML y sus especificaciones…………………………………. 14 2.1. Orígenes del lenguaje XML……………………………………. 14 2.2. Características del lenguaje XML……………………………… 15 2.3. Algunas especificaciones derivadas de XML: RDF, OWL y SKOS- CORE………………………………………………………... 16 2.3.1. RDF…………………………………………………… 17 2.3.2. OWL………………………………………………….. 18 2.3.3. SKOS-CORE…………………………………………. 19 3. Aplicación del XML en un Sistema de Información……………………... 20 3.1. Ventajas de la utilización de XML en un Sistema Integral de Gestión de Información……………………………………………... 20 3.2. Infraestructura…………………………………………………... 21 3.3. Los subsistemas de base de datos documental y relacional……. 21 3.3.1. La entrada o carga de documentos……………………. 22 3.3.2. El almacenamiento……………………………………. 23 3.3.3. La recuperación de información……………………… 24 3.3.4. Conectividad entre la base de datos documental y relacional…………………………………………………….. 26 3.4. El subsistema de tesauro………………………………………... 27 3.5. El subsistema de publicación de contenidos y DSI…………….. 28V. CONCLUSIONES………………………………………………………………. 30VI. BIBLIOGRAFÍA……………………………………………………………….. 31 2
  3. 3. Modelado de Documentos y Sistemas de Información con XMLI. INTRODUCCIÓN El Proyecto fin de Carrera (PFC) es una asignatura obligatoria incluida dentro del plan deestudios vigente en la titulación “Licenciado en Documentación” de nuestra Universidad. Se entiendecomo el resultado final de un proyecto o trabajo personal del alumno, donde manifieste losconocimientos y aptitudes adquiridos a los largo de la titulación de Licenciado en Documentación. Para el presente PFC se ha escogido el tema "Modelado de documentos y sistemas deinformación con XML". La aplicación de las tecnologías de la información originadas en Internetestá cambiando de forma cualitativa y cuantitativa las dinámicas de gestión de información ydocumentación en las organizaciones. En una primera fase de desarrollo tecnológico han proliferado las actuaciones para la creacióny mantenimiento de sistemas de información mediante Intranets y la elaboración de productos yservicios de información para Web. En la actualidad se han identificado una serie de problemáticas en este tipo de desarrollos.Estas problemáticas tienen su origen en las carencias del uso de la Web para el análisis y gestión delcontenido informativo de los documentos HTML. Hay que recordar que la Web se ideó como unmedio para la comunicación de información y no para su gestión. Sin embargo, hoy día existen soluciones basadas en XML que permiten aportar un mayorcontenido semántico a la descripción de los documentos electrónicos. Por lo tanto se abren nuevasposibilidades de gestión y reutilización de los contenidos informativos de los documentos digitales. Latecnología XML supone un punto de partida para el desarrollo de sistemas de información y elmodelado de documentos que doten de mayor relevancia al contenidos y la estructura de losdocumentos y no a su forma y presentación. Esta nueva orientación tiene su origen en la idea de WebSemántica. La Web Semántica es una Web extendida, dotada de mayor significado en la que cualquierusuario en Internet podrá encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias auna información mejor definida. Al dotar a la Web de más significado y, por lo tanto, de mássemántica, se pueden obtener soluciones a problemas habituales en la búsqueda de información graciasa la utilización de una infraestructura común, mediante la cual es posible compartir, procesar ytransferir información de forma sencilla. Esta Web extendida y basada en el significado, se apoya en lenguajes universales queresuelven los problemas ocasionados por una Web carente de semántica en la que, en ocasiones, elacceso a la información se convierte en una tarea difícil y frustrante. A partir de XML se handesarrollado múltiples especificaciones que permiten desarrollar la idea de Web Semántica, tales comoRDF, OWL o SKOS-CORE. 3
  4. 4. Modelado de Documentos y Sistemas de Información con XMLII. OBJETIVOS Los objetivos del presente PFC son los siguientes:  Estudiar las funcionalidades de un Sistema de Información Documental.  Identificar los principales subsistemas que componen un Sistema de Información Documental.  Elaborar una visión integral de un Sistema de Información Documental mediante una adecuada estructuración de los diferentes subsistemas.  Identificar las especificaciones XML más adecuadas para su aplicación en los distintos subsistemas del Sistema de Información Documental atendiendo a las funcionalidades de los mismos.  Detallar la forma en la que se pueden aplicar las especificaciones XML identificadas dentro de un Sistema de Información Documental.III. METODOLOGÍA La metodología seguida en este PFC se basa en un análisis de los diferentes subsistemas quecomponen un Sistema de Información Documental dentro del ámbito de las Tecnologías de laInformación. No solamente se han identificado dichos subsistemas, sino que además se han estudiado lasdiferentes relaciones que existen entre los mismos. Posteriormente se ha realizado un estudio de las especificaciones XML que se hanconsiderado más adecuadas para su aplicación en los diferentes subsistemas. En este estudio lasespecificaciones XML seleccionadas han sido: RDF, OWL Y SKOS-CORE. El motivo de escogerestas especificaciones se debe a que cubren, junto con el uso general de XML para la descripción dedocumentos, los principales procesos que realiza un Sistema de Información Documental. Finalmente se ha procedido a un trabajo de síntesis en donde se ha realizado una propuesta deaplicación de las especificaciones XML estudiadas en un Sistema de Información Documental. Se ha tenido en cuenta que dichas especificaciones pueden utilizarse tanto dentro de cada unode los subsistema analizados como en las relaciones que pueden establecerse entre los mismos. 4
  5. 5. Modelado de Documentos y Sistemas de Información con XMLIV. RESULTADOS A continuación se detallan los resultados obtenidos tras la aplicación de la metodologíaque se ha detallado en el anterior apartado.1. Los Sistemas de Información Documental En los últimos años, las organizaciones han venido incorporando las Tecnologías de laInformación y la Comunicación (TICs) a sus procesos de producción y de gestión, modificándose asíla forma de trabajar dentro de las mismas. La información, tanto interna como externa, se haconvertido en un elemento de vital importancia para las organizaciones, desde el punto de vistaestratégico y para mejorar su competitividad. Más aún, se ha pasado a un modelo basado en la gestiónadecuada de los llamados “activos intangibles” y el “capital intelectual”, llegando así a lo que seconoce como “Gestión del Conocimiento” (Knowledge Management). De este modo, además de laclásica gestión de los documentos en la organización, se ha pasado a la implementación deherramientas que mejoran la gestión y generación de conocimiento nuevo, como los sistemas deWorkflow o Data Warehouse. Desde una primera etapa donde se definían simplemente como sistemas de gestión de ladocumentación, se ha llegado a una concepción global y corporativa de la gestión de la información.Estos sistemas deben llegar, como señala M.A. Esteban Navarro a “administrar y controlar de modoconjunto, mediante el auxilio de la informática, todo tipo de datos, documentos, conocimiento yhabilidades existentes en la organización en la que se aplica 1”. Los objetivos de estos sistemas deben adecuarse a los de la organización donde se encuentran,aunque hay una serie de elementos básicos que serían aplicables a todos los entornos. Por lo tanto, loque pretende un Sistema Integral de Gestión de la Información es:  Facilitar a las personas que trabajan en la organización el trabajo con los documentos. Los documentos deben poder encontrarse rápidamente y sus usuarios deben saber cuáles hay que guardar, dónde y cómo. Deben poder gestionar los diferentes formatos de documento con los que la organización trabaje. Tienen que cubrir todo el ciclo vital de los documentos.  Permitir que la información se comparta y se aproveche como un recurso colectivo.  Conservar la memoria de la organización más allá de los individuos que trabajan en ella y poder aprovechar el valor de los contenidos en los que queda plasmada la experiencia, evitando empezar de cero sobre aspectos en los que ya hay experiencia acumulada.1 ESTEBAN NAVARRO, Miguel Ángel. La técnica de gestión integral de la información: nuevas tendencias de representación y la organización del conocimiento en los sistemas de información en las organizaciones. Organización del Conocimiento en Sistemas de Información y Documentación, v. 2, 1997, pp. 285-209. 5
  6. 6. Modelado de Documentos y Sistemas de Información con XML  Evolucionar al mismo tiempo que la organización, con un carácter abierto y dinámico. Estos objetivos establecen el marco de los distintos subsistemas que deberán integrarse. Cadaherramienta responderá a una necesidad en la gestión de la información, aunque el Sistema Integral deGestión de la Información se verá determinado por el funcionamiento de todas en su conjunto. Veamos los diferentes subsistemas que puede implementar un Sistema Integral de Gestión dela Información:  Todos los procesos relacionados con la elaboración, archivo, importación, recuperación, agrupación, lectura y referenciación de documentos de texto se llevarán a cabo mediante la incorporación de un subsistema de Base de datos documental, que integre un sistema de gestión del Correo Electrónico y otras herramientas de Ofimática e Internet.  La recuperación de documentos puede hacer necesaria la implementación de un subsistema de Thesaurus. Según el caso, este subsistema puede indexar y referenciar documentos externos (CD-ROM, Internet, etc.)  Para la gestión de documentos en formato de imagen (escaneados) será necesario un subsistema de Imágenes, enlazado normalmente con un subsistema de Base de datos Relacional, aunque estas imágenes también se podrán enlazar con el subsistema de Base de Datos Documental. (Sin embargo, es importante destacar aquí que, en la actualidad, el origen de los documentos manejados por las organizaciones es, en gran medida, digital.)  El paso de imágenes de texto a documentos textuales, mediante el escáner para obtener datos de imágenes, se realizará mediante un subsistema de Reconocimiento Óptico de Caracteres (OCR).  También es posible que sea preciso enviar periódicamente a determinados usuarios una serie de documentos que se correspondan con su perfil de interés, a medida que éstos vayan llegando al sistema, para ello podría implementarse un subsistema de Difusión Selectiva de la Información (DSI).  Los flujos de información (documentos) y los procesos en el seno de la organización deben ser racionales, estar coordinados y deben poder monitorizarse. Para lograr este objetivo se puede implantar una solución de Workflow en la organización.  El trabajo colaborativo entre las personas que trabajan en la organización se puede gestionar mediante herramientas de tipo Groupware, como pueden ser los Entornos colaborativos. 6
  7. 7. Modelado de Documentos y Sistemas de Información con XML1.1. Los subsistemas de un Sistema Integral de Gestión de la Información1.1.1. La base de datos documental Cuando se trata de un sistema que gestiona grandes cantidades de documentos en formatotexto, hipertexto o hipermedia, es preciso integrar un Sistema de Gestión Documental. Estos sistemasdeben soportar la importación, archivo, control de versiones, replicación, clasificación, indexación,búsqueda, visualización, edición, distribución y administración de los documentos.A) La importación de los documentos La base de datos documental debe permitir tanto importaciones masivas de documentos (cargainicial, migración desde otro sistema, etc.) como las propias de las gestiones diarias del sistema. Lasfuentes desde las que se cargarán estos documentos pueden ser muy variadas: entradas de fax, correoelectrónico, correspondencia ordinaria, documentos internos, publicaciones interesantes para laorganización, discos ópticos, Internet... Los documentos que llegan al sistema en formato papel seránescaneados para de este modo obtener su imagen, que podrá ser enlazada a un documento “principal”de texto o bien pasada por un OCR para cargar la información obtenida como un documento de texto.B) La creación de documentos El subsistema de base de datos documental debe proveer herramientas que ayuden a lacreación de documentos, ya sea creándolos desde cero mediante la integración con herramientasofimáticas para tal fin, editando los ya existentes o enlazando otros objetos a los mismos, entre otrasposibilidades.C) La búsqueda de documentos en la base de datos El subsistema debe permitir buscar por varios procedimientos: 1. Por texto completo (full text): combinaciones de palabras expresadas mediante operadores booleanos, búsquedas por proximidad, frase completa, etc. 2. Por hiperenlaces: se refiere a poder saltar de un documento a otro de la base de datos por medio de enlaces predefinidos e indicados en los mismos. Se trataría de una búsqueda “manual”, ya que es el propio usuario quien “navega” (browsing) por el contenido de los documentos y a través de las conexiones semánticas que ofrecen los enlaces. Estos hiperenlaces los podrá definir el usuario explícitamente en el momento de la referenciación o el propio sistema implícitamente. Para esto último el sistema deberá aplicar un criterio homogéneo para la asignación de conceptos a los diferentes documentos. 3. Por descriptores de documentos: son palabras o grupos de palabras que representan el contenido de un documento. Estos términos se extraen de lenguajes documentales, tales 7
  8. 8. Modelado de Documentos y Sistemas de Información con XML como listas de autoridades, encabezamientos de materias, o tesauros, permitiendo la recuperación de documentos a partir de palabras que no están presentes en el documento original. Se pueden combinar mediante operadores booleanos. 4. Por categorías: los documentos se clasifican por los campos que contienen, y en función de éstos se ordenan de forma jerárquica (arborescente). 5. Debería ser posible buscar también por medio del Thesaurus del sistema, ya sea mediante los términos elegidos o mediante sinónimos u otros relacionados en la estructura del mismo.D) La “referenciación” de documentos Un aspecto importante es el de la definición de los campos de los documentos que van a serreferenciados y de las diferentes agrupaciones de documentos que se van a constituir. Esta actividaddebe facilitar posteriormente las búsquedas que se realicen en la base de datos. De este modo, elsubsistema debe permitir definir campos dentro de los documentos, listas de descriptores o bienenlaces a otros documentos, referenciándolos siempre con un criterio común y evitando la repeticiónde esfuerzos. Aquí es importante destacar el concepto de hipertexto, fundamental en los sistemas deinformación modernos, o de hipermedia, en el caso de que los documentos contengan imágenes,vídeo, sonido u otros objetos diferentes del texto. El sistema de gestión integral de la información debepermitir “navegar” por los documentos que contiene (browsing). Los conceptos contenidos en el documento se constituyen en enlaces a los que el usuariopuede acceder en sus búsquedas y que le llevarán a otros documentos relacionados a nivel decontenido. Esto nos acerca también a la idea de hipertexto a dos niveles2: los documentos serepresentan desde el punto de vista de su contenido y al mismo tiempo éste se abstrae en una redconceptual. De ahí los dos niveles, por un lado la red semántica estructurada en descriptores quedefinen el contenido de los documentos y, por otro, los subconjuntos de éstos últimos que tienen encomún esos descriptores. Así, el usuario puede realizar browsing en un documento cualquiera de labase de datos documental haciendo clic en los enlaces definidos en el mismo y que son representativosdel contenido del mismo. Esto le llevará a otros documentos que también contienen ese descriptor, porlo que están semánticamente relacionados.1.1.2. El correo electrónico El subsistema de correo electrónico es un vehículo de comunicación de decisiones de trabajo,negociaciones con clientes o encargos de trabajo, cuya implantación ha tenido un éxito sin precedentesen el seno de las organizaciones. El subsistema debe permitir que la información intercambiadamediante correo electrónico o mensajería interna no se pierda y sea accesible para el conjunto de laorganización.2 PASTOR, J. A. y SAORÍN, T., “La escritura hipermedia” [en línea]. En: Cuadernos de Documentación Multimedia, números 6-7, 1997- 98, pp. 221-238. Puede consultarse en red en: <http://www.ucm.es/info/multidoc/multidoc/revista/cuad6-7/saorin.htm> [Consulta: 24 mayo 2005] 8
  9. 9. Modelado de Documentos y Sistemas de Información con XML Entendiendo la globalidad y el carácter corporativo de los Sistemas Integrales de Gestión de laInformación, es preciso que el subsistema de correo electrónico esté integrado con el de gestióndocumental. Debería permitir añadir a los mensajes información obtenida del sistema de gestióndocumental o consultar el mismo sin necesidad de abandonar el correo. Es más, el subsistema de gestión documental debería ser capaz de comunicarse con losusuarios del sistema por medio del correo electrónico, difundiendo la información del mismo aaquellos que puedan necesitarla o bien enviando alertas para informar de la presencia de undocumento nuevo de interés.1.1.3. El subsistema de base de datos relacional Hemos de tener en cuenta que una base de datos relacional es un subsistema de propósitogeneral, y que proporciona soporte a otros subsistemas para el manejo de datos, aportando lasfuncionalidades necesarias para manejarlos, preservarlos y recuperarlos. Éste subsistema funcionacomo un servidor, proporcionando los datos a los usuarios que se conectan a él. Existen numerosassoluciones de base de datos, tanto libres (MySql, PostgreSQL, etc.) como comerciales (Oracle, SQLServer, etc.). El subsistema de base de datos relacional sirve de soporte a la referenciación que antes semencionaba, concretamente en el caso del subsistema de imágenes y en el caso de trabajar condocumentos en formato de audio o vídeo. La base de datos contendrá el código que haga referencia ala imagen en cuestión y el resto de datos que sirvan para referenciarla unívocamente y poder asílocalizarla cuando sea preciso. Es preciso apuntar aquí que la base de datos relacional no funciona de forma “aislada” a labase documental, sino que puede contener registros haciendo referencia a determinados documentos,ya sean texto plano, hipertexto o hipermedia. Junto a esta funcionalidad, la base de datos relacional podrá contener datos vitales para elsistema: inventarios, usuarios y roles, control de accesos, información de configuración, etc. Estosdatos se distribuirían entre diversos servidores. Cabe destacar aquí un tipo especial de base de datos orientada a la toma de decisiones en laorganización. Se trata de los Data Warehouse. Si bien tienen similitudes con las relacionales, éstas sepueden considerar más bien bases de datos multidimensionales, ya que su estructura depende de unaserie de dimensiones predefinidas en la BD (geografía, tiempo, productos, etc.). Se nutre de los datos extraídos y filtrados de otros subsistemas, transformándolos,integrándolos, sumariándolos y almacenándolos en un repositorio, de manera que se pueda acceder aellos cuando sea preciso. La información de interés se distribuye por medio de diversas herramientasde consulta y de creación de informes, orientadas a la toma de decisiones. Permite también el empleo 9
  10. 10. Modelado de Documentos y Sistemas de Información con XMLde técnicas avanzadas de extracción de información como el Data Mining.31.1.4. El subsistema de thesaurus Este subsistema puede encontrarse integrado en la base de datos documental o bien funcionarcomo una aplicación aparte. El thesaurus dota al sistema de funciones que mejoran sustancialmente lasbúsquedas. En la actualidad destacan por sus potencialidades hipertextuales: las relaciones entretérminos se representan con enlaces. El tesauro sirve como base a la navegación hipertextual de labase documental, ya que especifica las relaciones entre los términos representativos del contenido delos documentos. El hipertexto a dos niveles, del que se hablaba anteriormente, depende de la existencia de unared conceptual subyacente, en este caso el tesauro cumple esa función. Esto finalmente conseguirá queel lenguaje del sistema (thesaurus) haga de “guía” del usuario en las búsquedas por navegación en losdocumentos (browsing), ofreciéndole documentos relacionados con la materia que buscaba, pero queen un principio no se hallaban en su formulación de búsqueda. Además de buscar por palabrasconcretas contenidas en los textos mediante los clásicos operadores booleanos, el subsistema dethesaurus encuentra sinónimos o términos relacionados, aumentando así en gran medida el número dedocumentos encontrados. La combinación de estas funcionalidades puede servir para elaborar perfiles de búsqueda,bastante más avanzados que las búsquedas normales, y que pueden ser almacenados y llamados encualquier momento. A la hora de determinar qué descriptores van a caracterizar un determinadodocumento, el thesaurus también representa una ventaja, ya que puede sustituir a la determinación dedescriptores clásica. El thesaurus debería integrarse en el sistema de forma transparente al usuario,teniendo acceso a los documentos de la base de datos documental, relacional y el correo electrónico.1.1.5. El subsistema de imágenes y el OCR Responde a la necesidad de tratar los documentos que no están sobre soporte de ficheroinformático de texto, ni de audio o vídeo, esto es, documentos en formato papel, transparencias,fotografías, diapositivas, planos, faxes, imágenes de objetos tridimensionales, etc. El objetivo de estesubsistema es capturar, editar, visualizar e imprimir estas imágenes y permitir que puedan seralmacenadas y gestionadas en red. Como es obvio, se encontrará integrado con un subsistema de basede datos documental o relacional. La incorporación de imágenes al sistema puede realizarse a través de una carga masiva inicial,una migración desde otro sistema o bien con las entradas de documentos diarias. A partir de losdocumentos físicos en diversos soportes, se crean unos ficheros de imágenes. Para ello se empleageneralmente el escáner, que dispone de una aplicación informática ligada, a su vez subordinada a laaplicación principal de imágenes del sistema. Estas imágenes posteriormente deben poder serbuscadas, visualizadas en pantalla o bien imprimidas. Se suele distinguir entre “digitalización gráfica”3 J.M. Franco, EDS-Institut Prometheus, "El Data Warehouse. El Data Mining", Ediciones Gestión 2000, 1997. 10
  11. 11. Modelado de Documentos y Sistemas de Información con XMLy “digitalización del texto”, según sea el propósito final de dicha digitalización del documento. El sistema de Reconocimiento Óptico de Caracteres (OCR) permite reconocer texto y datosque se encuentran en los ficheros informáticos de imágenes. Pueden leer tanto el texto completocontenido en un fichero de imagen como determinadas zonas del mismo. La primera funcionalidadtiene por objetivo el volcado del texto en documentos que pasarán a formar parte de la base de datosdocumental. La segunda, enviar los datos extraídos a la base de datos relacional, siendo lo más comúnen el caso de digitalizar lotes de formularios o documentos con un formato fijo. Este subsistemaacostumbra a integrarse con el de gestión documental. Sin embargo, volvemos a reiterar aquí que el uso de herramientas ofimáticas está desplazandoa la tradicional gestión de documentos en papel. Los documentos se generan en formato digital y elsistema de gestión integral de la información trabaja con ellos directamente. Aspectos como lacompatibilidad y el uso de estándares son importantes aquí, ya que el intercambio de documentos conlas aplicaciones que los generan debe poder hacerse sin conversiones previas.1.1.6. El subsistema de Workflow En estrecha relación con las aplicaciones de trabajo en grupo (groupware), propone elestablecimiento de una serie de reglas y pautas en las que se especifican las tareas y pasos que se hande seguir para la consecución de un proceso de negocio. En estos procesos se suele generarinformación abundante, ahí es donde entra en juego el sistema de gestión integral de la información,para capturar ese conocimiento, almacenarlo y procesarlo para generar conocimiento nuevo. Decimos que pertenece a la aplicaciones de groupware, porque va destinado a facilitar eltrabajo en grupo, dándole una estructura racional. El workflow, al mismo tiempo, permite coordinar yautomatizar los procesos de negocio, balanceando cargas de trabajo, gestionando los plazos de entregao bien pasando tareas de un empleado a otro según sea conveniente. No sólo eso, el workflow tambiénestá dotado de un sistema de monitorización de las tareas realizadas y del estado de los procesos, loque permitirá futuras modificaciones e incluso el completo rediseño del proceso de negocio paraadaptarlo a las necesidades del mercado.1.1.7. El subsistema de Groupware Básicamente se puede definir al groupware como el software que permite trabajar de formacooperativa a un equipo u organización a través del correo electrónico, bases de datos compartidas,gestión de flujos de trabajo, etc. Por lo tanto, se define como «herramientas con las que las personaspuedan trabajar juntas en un marco colectivo de comunicación, colaboración y coordinación»4. Si lacomunicación entre los miembros del equipo es en tiempo real, pueden emplearse medios que facilitenla votación o la generación de nuevas ideas, siempre y cuando puedan reunirse en el mismo lugar; deno ser así, se puede recurrir al teléfono, la videoconferencia o la mensajería instantánea. De tratarse de4 SAGREDO, ÁNGEL (1996): «El trabajo en grupo en la Internet», Actas del I Congreso Nacional de Usuarios de Internet. Madrid, Asociación de Usuarios de Internet, 1996, 213-239. 11
  12. 12. Modelado de Documentos y Sistemas de Información con XMLuna comunicación asíncrona, entrará en juego el correo electrónico, fax, buzón de voz, los grupos dediscusión o los entornos colaborativos. La variedad de aplicaciones de tipo groupware es enorme, sinembargo puede establecerse una taxonomía de las mismas:  Herramientas de comunicaciones: incluyen la mensajería, el correo electrónico, el fax, la telefonía, los foros de discusión, etc.  Herramientas de coordinación: facilita que los componentes de un grupo de trabajo se pongan de acuerdo y trabajen en una misma dirección. Pueden incluirse aquí las Agendas de grupo o las de Seguimiento de una actividad. Si el tiempo es vital para la tarea, aquí entran en juego los Organizadores personales, las Agendas de red o incluso los Sistemas de gestión de proyectos.  Herramientas de workflow: ya mencionadas anteriormente, tratan de conseguir la coordinación de usuarios, tareas e información para el logro de la meta de la organización. Entre otros ejemplos aquí cabe citar: Automatización y control de procesos, Rutas dinámicas de documentos, firmas digitales, etc.  Repositorios de información: permiten la distribución de información de y para los usuarios. Los usuarios pueden publicarla o recibirla, esto siempre mediante la acción directa del mismo. Ejemplos: bases de datos de documentos, control de versiones, servidores web en Internet, etc.  Entornos colaborativos: permiten que personas que se encuentran ubicadas en diferentes localizaciones puedan trabajar juntas en tiempo real. Estos entornos permite trabajar a un grupo de personas sobre los mismos documentos al mismo tiempo, y pueden integrar herramientas como el control de versiones, agendas de red, videoconferencia, pizarras colaborativas, compartición de pantalla, etc.1.1.8. El subsistema de DSI La Difusión Selectiva de la Información consiste en un tratamiento y explotación periódica delas informaciones documentales más recientes, memorizadas y difundidas periódicamente en respuestaa los perfiles documentales definidos por los usuarios. Estos perfiles se construyen en base a lostérminos o palabras clave que constituyen la “necesidad documental” del usuario. Una vez definido elperfil, el usuario recibe periódicamente la información ajustada a su demanda. Los sistemas actuales, disponen de dos opciones relativas a los sistemas DSI:  El cliente consulta directamente información de algún tema concreto en base a un listado. Es el método tipo “PULL”, ya que es el usuario el que decide acceder a los contenidos cuando él lo desea.  El cliente se suscribe a los perfiles de información que le interesan y recibe periódicamente en 12
  13. 13. Modelado de Documentos y Sistemas de Información con XML su correo electrónico boletines con las novedades de la base de datos documental. Es el método tipo “PUSH”, ya que el usuario recibe periódicamente la información de forma continuada. En todo caso, el sistema debe permitir que el usuario sugiera nuevos perfiles de DSI enfunción de sus intereses cambiantes. Figura 1. Esquema funcional del sistema integral de gestión de la información.2. El lenguaje XML y sus especificaciones2.1. Orígenes del lenguaje XML Como se verá posteriormente, XML trata el contenido de un documento digital como unaestructura arbórea de elementos. Este enfoque tiene su origen en las técnicas empleadas por losprimeros procesadores de texto. En los años 60 se escribía en primer lugar el texto digital y luego se aplicaba el formatodeseado. Por lo general este texto terminaba siendo impreso y se asociaba la descripción referente a lapresentación del documento. Algunas de esas “anotaciones” siguen vigentes hoy en día, como en elcaso del formato RTF (Rich Text Format). Poco después aparecería el marcado de formato, queconsistía en marcar directamente el texto mediante una serie de etiquetas. 13
  14. 14. Modelado de Documentos y Sistemas de Información con XML La aparición de los sistemas WYSIWYG (what you see is what you get) trajo consigo eldesarrollo de lenguajes de etiquetas más complejos. Mientras tanto, los procesadores de textoevolucionaron cualitativamente hasta llegar a los actuales: Pagemaker, MsWord, WordPerfect,StarOffice, ect. Esto llevó a una proliferación de formatos y, con ellos, diferentes formas de representar lainformación. Así, a finales de los 60, IBM creó el GML (General Markup Language), queposteriormente se convertiría en SGML (Standard Generalized Markup Language), que adquirió elestatus de norma ISO en 1986 (ISO 8879). SGML permite especificar la estructura de un documento mediante una definición formalllamada DTD (Document Type Definition). La DTD especifica qué elementos constituyen undocumento, como por ejemplo secciones, subsecciones, párrafos, títulos, etc. El precedente de Internet, ARPANET, apareció a principios de los 70. Uno de los principiosen que se basaba era el hipertexto, esto es, la organización no secuencial de los documentos, lo quesupone criterios de asociación de conceptos como principio organizador. Los dos elementos clave eneste sistema son el enlace y el nodo. Un nodo en Internet es un documento digital relacionado conotros por medio de enlaces. La mayor parte de los nodos o documentos digitales que se encuentran enInternet están codificados en HTML, que no es ni más ni menos que una DTD de SGML queespecifica qué “elementos” componen un documento digital publicado en la web. El World Wide Web Consortium (W3C) ha centralizado desde 1996 el desarrollo de HTML.Esta misma entidad ha sido la que ha propuesto y desarrollado el formato XML, fundamentalmentepor tres motivos:  Se buscaba una norma para intercambiar información estructurada entre dos puntos de la red, con independencia de la plataforma o la aplicación. Pese a que SGML era el candidato ideal, su tamaño y complejidad hicieron necesaria la creación de otro estándar.  Se quería publicar documentos digitales en la WWW a gran escala.  HTML sólo sirve para describir el formato de los documentos y no su contenido. Para ello se creó un subconjunto de SGML que es lo que ha dado lugar a la actualespecificación XML. Lo más interesante de esta evolución es constatar cómo en un momento determinado seprodujo una separación entre presentación y contenido. En estos momentos la estructuración delcontenido de la web concentra el interés y los esfuerzos de usuarios y desarrolladores. De ahí el éxitoactual del formato XML, ya que es un medio para estructurar el contenido de los documentos digitales.2.2. Características del lenguaje XML 14
  15. 15. Modelado de Documentos y Sistemas de Información con XML Por medio de XML es posible definir los documentos con el grado de exhaustividad que serequiera. Una de las características principales de un documento XML es que permite organizarjerárquicamente todas las unidades informativas de un documento mediante estructuras lógicas. En laterminología de XML, estas unidades se denominan entidades (entities) y no son sino datos(contenidos) dispuestos para ser interpretados por la máquina. XML posee mecanismos que permitenrevisar la estructura lógica de los documentos con el propósito de que las máquinas que seinterconecten entre sí para operar con estos datos lo puedan hacer de manera fluida. El acceso a losdocumentos XML se realiza mediante un procesador que revisa la estructura de los documentos einterpreta los contenidos de acuerdo con una gramática. La gramática de los lenguajes XML, es decir, la estructura y elementos permitidos en losdocumentos XML, se define mediante:  DTD (Document Type Definition): Documento ASCII plano que especifica tanto los elementos que forman un tipo de documento dado, como las relaciones que se dan entre ellos.  XSD (XML Schema Definition): Mejoran los DTD’s porque están escritos en XML y permiten nuevas características: - Definir tipos de datos. - Utilizar espacios de nombre. - Definir intervalos de valores para los atributos y elementos. - Características Orientadas a Objetos. El éxito de XML ha propiciado la demanda de nuevas funcionalidades, que se abordandefiniendo extensiones adicionales para:  Estructurar documentos (XML Schema)  Enlaces y direccionamiento (Xpath, Xlink, Xpointer)  Transformación y presentación (XSL, CSS2)  Consultas (Xquery)  Programación (DOM, SAX)  Otros (Namespaces, Xinclude, Xbase...)<?xml version=“1.0”?> <contacts> <contact> <name> <first>John</first> <last>Belcher</last> </name> Figura 2. Código de ejemplo XML. 15
  16. 16. Modelado de Documentos y Sistemas de Información con XML2.3. Algunas especificaciones derivadas de XML: RDF, OWL YSKOS-CORE Aunque XML es un lenguaje válido para describir con exhaustividad el contenido de undocumento, tiene serias limitaciones en contextos donde se precisa que la semántica de los datos conque se trabaja sea explícita. Es decir, cuando “codificamos” un documento en XML, no estamosdiciendo nada sobre el significado de esas estructuras que estamos creando. Pese a ser un granlenguaje para el intercambio de datos en la web y entre aplicaciones, no permite expresar la semánticade esos datos. Del mismo modo, usando XML, las propiedades de esos datos (y de los metadatos) nopueden ser inferidas de ninguna manera. Como solución a esto surgen otros lenguajes que, apoyándose en la sintaxis de XML, sí estándotados de capacidades para definir la semántica y las propiedades de los datos que manejan.2.3.1. RDF En 1999 se publicó la primera versión de RDF (Resource Description Framework), unlenguaje para la definición de ontologías y metadatos en la web. El objetivo de RDF fue solucionar elacceso y gestión de contenidos en la web mediante un lenguaje de metacontenidos. RDF es hoy elestándar más popular y extendido en la comunidad de la web semántica. Este lenguaje es importante para la descripción de los objetos y los tipos de objetos que seencuentran en la red (a los que se suele llamar “recursos”). RDF se basa en la idea de que podemosidentificar los elementos a partir de URIs (Uniform Resource Identification) describiendo los recursosen términos de propiedades simples o pares propiedad-valor. Esto permite representar lasdeclaraciones simples sobre recursos como un grafo de nodos y arcos que representan los recursos, suspropiedades y sus valores. Por tanto, el elemento de construcción básica en RDF es el “triple” osentencia, que consiste en dos nodos (sujeto y objeto) unidos por un arco (predicado), donde los nodosrepresentan recursos, y los arcos propiedades. Con RDF Schema (RDFS) se pueden definir jerarquías de clases de recursos, especificando laspropiedades y relaciones que se admiten entre ellas. En RDF las clases, relaciones, y las propiassentencias son también recursos, y por lo tanto se pueden examinar y recorrer como parte del grafo, oincluso asertar sentencias sobre ellas. Se han definido diferentes formas sintácticas para la formulaciónescrita de RDF, pero quizás la más extendida es la basada en XML (serialización). Es por ello queRDF se presenta a menudo como una extensión de XML. Pese a la potencia de RDF para describir recursos, hay que tener en cuenta que también tienealgunas debilidades: 16
  17. 17. Modelado de Documentos y Sistemas de Información con XML  Dos documentos pueden usar definiciones diferentes del mismo concepto y no se puede decidir que son equivalentes.  Tiene problemas de ambigüedad en la definición de sus elementos.  No se permite el manejo/ definición de restricciones de integridad.<?xml version="1.0"?><rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:contact="http://www.w3.org/2000/10/swap/pim/contact#"> <contact:Person rdf:about="http://www.w3.org/People/EM/contact#em"> <contact:fullName>Eric Miller</contact:fullName> <contact:mailbox rdf:resource="mailto:em@w3.org"/> <contact:personalTitle>Dr.</contact:personalTitle> </contact:Person></rdf:RDF> Figura 3. Código de ejemplo RDF.2.3.2. OWL Al lenguaje RDF le siguieron OIL (Ontology Inference Language), desarrollado en Europa, yDAML (DARPA Agent Markup Language), en EE.UU., dos lenguajes muy similares que de hecho seterminaron fundiendo en DAML+OIL. A partir de esta unión se definió el lenguaje OWL (WebOntology Language), con el propósito de reunir todas las ventajas de DAML+OIL y resolver losproblemas de este lenguaje. OWL se puede formular en RDF, por lo que se suele considerar una extensión de éste. OWLincluye toda la capacidad expresiva de RDF(S) y la extiende con la posibilidad de utilizar expresioneslógicas. OWL permite, por ejemplo, definir clases mediante condiciones sobre sus miembros (p.e. laclase de los cuadros creados por pintores españoles), mediante combinación booleana de clases (Tintoand Rioja and not Crianza en una ontología de vinos), o por enumeración de las instancias quepertenecen a la clase (i.e. por extensión). Además OWL permite atribuir ciertas propiedades a lasrelaciones, como cardinalidad, simetría, transitividad, o relaciones inversas. El lenguaje OWL permite todas las operaciones que son propias de una ontología, como creardescripciones sobre clases de individuos, con restricciones y relaciones con otras descripciones. Sedivide en tres sublenguajes: OWL-Lite, OWL-DL y OWL-Full, cada uno de los cuales proporciona unconjunto definido sobre el que trabajar, siendo el más sencillo OWL-Lite y el más completo OWL-Full. Con todo esto y pese a ser válido como lenguaje de elaboración de ontologías, hay querecordar que OWL también tiene algunas desventajas:  Debe existir un número limitado de constructores / axiomas para que el proceso de inferencia sea decidible. 17
  18. 18. Modelado de Documentos y Sistemas de Información con XML  No es muy natural.  No permite definir/ chequear restricciones de integridad.  Complejidad.<owl:Class rdf:ID="QualityRating"> <owl:oneOf rdf:parseType="Collection"> <QualityRating rdf:ID="qualityRating_Excellent"/> <QualityRating rdf:ID="qualityRating_Good"/> <QualityRating rdf:ID="qualityRating_Average"/> <QualityRating rdf:ID="qualityRating_Poor"/> </owl:oneOf></owl:Class> Figura 4. Código de ejemplo OWL.2.3.3. SKOS-CORE Se trata de la propuesta más concreta que hay hoy en dia para la elaboración de tesauros en elentorno de la web semántica. SKOS-Core es un schema RDF para la representación de tesauros ysistemas similares de organización de conocimiento. Esta aproximación es la propuesta por el W3C.El objetivo fundamental de SKOS-Core es proporcionar un modelo para la migración de sistemas deorganización de conocimiento al entorno de la web semántica. Además sirve para construir esquemasde conceptos simples para su utilización en la Web. SKOS-Core está pensado como un complemento a OWL, ya que proporciona un marco básicopara la construcción de esquemas de conceptos pero sin la definición semántica tan estricta que exigela utilización de OWL. Se trata en cierta medida una simplificación mayor de la que encontramos yaen OWL-Lite, lo cual permite acceder a un mayor número de personas a este tipo de tecnologías parala representación del conocimiento. La idea base de este schema RDF reside en su capacidad para permitir la definición deconceptos y esquemas de conceptos. Un concepto se define como una unidad de pensamiento quepuede ser definida o descrita. A su vez, un esquema de conceptos no es otra cosa que una colección deconceptos. Un concepto puede tener una serie de etiquetas asociadas, donde cada etiqueta es unapalabra, frase o símbolo que suele utilizarse para referirse a ese concepto. 18
  19. 19. Modelado de Documentos y Sistemas de Información con XML<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:skos="http://www.w3.org/2004/02/skos/core#" xmlns:dc="http://purl.org/dc/elements/1.1/"> <skos:ConceptScheme rdf:about="http:/spines.org/thesaurus"> <dc:title>SPINES</dc:title> <dc:description>Tesauro de política científica</dc:description> <dc:creator>UNESCO</dc:creator> </skos:ConceptScheme></rdf:RDF> Figura 5. Código de ejemplo SKOS-Core.3. Aplicación del XML en un Sistema de Información3.1. Ventajas de la utilización de XML en un Sistema Integral deGestión de la Información Con lo visto hasta ahora, se ha elaborado un diseño funcional y operativo de un SistemaIntegral de Gestión de la Información. Se distinguieron en él todos los subsistemas de los que dependela entrada, el proceso y la salida de información, junto con las relaciones entre los diferentes módulosque lo componen. Como segundo paso, se ha expuesto la tecnología XML y las diferentesespecificaciones, que vienen a cubrir diferentes necesidades de descripción de recursos web (RDF),ontologías (OWL) y tesauros (SKOS-Core). A partir de aquí es necesario plantearse la utilidad de implementar estas tecnologías al diseñode los Sistemas de Información, esto es, determinar en qué grado mejorarán la descripción, la gestióny el intercambio de información. La decisión de implementar una tecnología u otra no es una decisiónque deba tomarse a la ligera. Ha de seleccionarse un estándar que cubra las necesidades arribadescritas y al mismo tiempo disponga de aceptación general, garantizándose que no quede obsoleto enun breve espacio de tiempo. Como se ha dicho anteriormente, la principal virtud de XML se encuentra en su capacidad paradefinir el contenido de los documentos de forma jerárquica, estructurando sus unidades informativasde forma lógica. Dicho de otra forma, permite “estructurar” la información contenida en losdocumentos. Esta cualidad, aplicada a los documentos de nuestro sistema, nos permitirá: 19
  20. 20. Modelado de Documentos y Sistemas de Información con XML  Crear una base de datos de componentes de documentos. Ya que XML es una notación que preserva las abstracciones, los datos de los documentos XML pueden tratarse como el resto de datos, esto es, automatizarse, procesarse, reutilizarse, clasificarse y recuperarse.  Salidas múltiples. Los datos en un documento XML se almacenan independientemente del medio utilizado. Esto permite que las organizaciones documentales entreguen su información automáticamente desde un sólo depósito a la Web, por medio de un disco óptico, para su impresión o cualquier otro medio. Por lo tanto, XML facilita el intercambio de información por tratarse de un estándar donde la presentación es independiente de los datos.  Reutilización de la información. En ocasiones las organizaciones vuelven a crear información ya existente en lugar de reutilizarla. Esta gestión ineficaz provoca imprecisiones, versiones erróneas, fallos de entrega y, por supuesto, un aumento en los costes. Estos costes superfluos pueden evitarse construyendo un depósito de documentos estructurado, que permitirá el mayor número posible de reutilizaciones de la información ya existente. Esta base de datos permitirá mantener la integridad de los datos que contiene independientemente del momento, lugar o frecuencia con que se utilicen.  Automatización. Si se representan los documentos en XML y se almacenan en un depósito, se pueden obtener mejoras mediante una automatización intensiva que genera el mismo tipo de ventajas que si se implantaran bases de datos relacionales para reemplazar registros introducidos de forma manual.3.2. Infraestructura El hardware, junto con el software de base, constituye la infraestructura de trabajo de unsistema integral de gestión de la información. Está integrada tanto por los computadores que utilizanlos usuarios (clientes del sistema) como por los que centralizan las bases de datos documentales /relacionales (servidores); además de la red que interconecta todas las máquinas y el sistema operativosobre el que funciona el software de gestión de la información.3.3. Los subsistemas de base de datos documental y relacional Una vez enumeradas las ventajas de la aplicación de XML y sus especificaciones a un sistema deinformación, podemos estudiar su aplicación en la base de datos documental y en la relacional. En estepunto será de vital importancia tratar aspectos como:  La caracterización de los documentos en el momento de su entrada (carga) en el sistema, 20
  21. 21. Modelado de Documentos y Sistemas de Información con XML teniendo en cuenta el formato en que llegan (si se precisa la conversión a otro) y la correspondiente estructuración de la información contenida en ellos.  El almacenamiento en la base de datos, tanto los clásicos registros de la base de datos relacional como el repositorio de componentes XML que formará nuestra base de datos documental.  La recuperación de información, acercándonos a las diferentes opciones en lo relativo a lenguajes de consulta y la interfaz de usuario  La conectividad entre la base de datos documental y la relacional, que se efectuará también a través de XML y será clave en el momento de la recuperación de información y para el subsistema de publicación de contenidos y DSI.3.3.1. La entrada o carga de documentos Los documentos llegan al sistema por muchas vías: el clásico OCR integrado en el subsistemade imágenes, documentos electrónicos recibidos desde la web o generados en la misma organización,procedentes de discos ópticos u otros dispositivos de almacenamiento, etc. El problema no seencuentra en las múltiples vías de llegada de documentos, sino en la diversidad de formatos, queobliga a una conversión de éstos al formato propio de carga en el sistema, de manera que puedanaplicarse a los mismos las modificaciones pertinentes. Se dice que, en una base de datos relacional, sólo se encuentran datos abstractos, es decir,información estructurada. Sin embargo, en el archivo informático de un procesador de texto, porejemplo, se encontrará la información de estilo mezclada con la información real -el contenido de losdatos- del documento. Por tanto, se puede decir que los documentos tienen estructura, aunque la forma en que estánalmacenados “oculta” los datos abstractos que indican el aspecto que deberían tener en supresentación. Dicho de otro modo, las bases de datos relacionales contienen abstracciones y los archivosdocumentales contienen, generalmente, reproducciones. La idea aquí, por tanto, es almacenar losdocumentos de manera que su estructura natural y los datos que contienen puedan distinguirsesiempre, gestionar los documentos como si se tratara de datos. Evidentemente, el proceso de “etiquetado” XML es una tarea que se debe realizar de formaautomática, siendo la aplicación la que reconozca los campos de los documentos que previamente sele han especificado. Está claro que esto supone un problema de formalización de los documentos cargados en elsistema: no todos lo documentos tendrán los mismos campos (capítulo, título, sección, subsección,etc.), por lo que en ocasiones será precisa la intervención manual. De todos modos, hasta en los casosdonde sea más difícil la estructuración por XML, siempre se podrán efectuar búsquedas a textocompleto. 21
  22. 22. Modelado de Documentos y Sistemas de Información con XML3.3.2. El almacenamiento En el actual panorama de los sistemas de gestión documental, se tiende hacia la orientación aobjetos como paradigma de almacenamiento 5, considerando que un documento se compone de objetosde información (fotos, capítulos, secciones, etc.), que además incluye información sobre cómo estosobjetos deben ensamblarse. En el momento de la presentación de resultados de una búsqueda, debe poder mostrarse a losusuarios documentos virtuales diferentes, adaptando el ensamblaje de las partes a las características decada usuario. En definitiva, se trataría de evolucionar desde el clásico almacenamiento estático de losdocumentos hacia un almacenamiento que permita su composición en el mismo momento en que vana ser utilizados por los usuarios6. Figura 6. Evolución en la estructura de los documentos electrónicos. La propuesta de este trabajo consiste en la construcción de una base de datos de componentesde documentos XML, de manera que cada documento individual contenido en la misma se encuentreestructurado jerárquicamente a partir de los campos predefinidos en él. Un componente, por tanto, esun fragmento de información que puede utilizarse de forma independiente, como un párrafo, uncapítulo, un procedimiento con instrucciones, una nota de aviso, un número de parte, una cantidad deun pedido, un gráfico, una historia parcial, secuencias de vídeo y una variedad infinita de tipos deinformación. Tratados mediante un sistema de gestión de contenidos, estos fragmentos puedencontrolarse, revisarse, reutilizarse y agruparse en documentos nuevos.5 MARTÍNEZ, José Manuel; HILERA, José Ramón; MARTÍNEZ, Javier y GUTIÉRREZ, José A. (1996): "Orientación a Objetos en la Documentación Hipermedia". Actas de las II Jornadas sobre Tecnologías de Objetos. Madrid, Asociación de Técnicos de Informática, SIMO TCI, 1996, 49-54.6 MARTÍNEZ José Manuel; HILERA José Ramón. Los sistemas de gestión documental en el ámbito del trabajo corporativo. Revista General De Información y Documentación, 1997;7:237-255. 22
  23. 23. Modelado de Documentos y Sistemas de Información con XML Por lo tanto, nuestra base de datos documental no contendrá realmente documentos“completos”, sino componentes de los mismos con información acerca de su ensamblaje. Estopermitirá recuperar los documentos enteros, o bien sólo secciones de los mismos que sean de nuestrointerés, pudiendo incluso generar documentos nuevos a partir de los fragmentos que seleccionemos.Cuanto más pequeños y específicos sean estos componentes, más manipulables y reutilizablesresultarán. Junto con este repositorio de componentes, la base de datos documental también contendrála “colección” de DTDs de las diferentes tipologías de documentos XML. La base de datos relacional, en nuestro modelo, puede servir tanto para almacenar registros dedatos de importancia para la organización, como para localizar los objetos de información situados enla base de datos documental, sobre todo cuando se trate de imágenes, vídeos, gráficos u otros. Asípues, nuestro Sistema Integral de Gestión de la Información almacenará una colección de “objetos” delos tipos descritos arriba. Desde la perspectiva del usuario, debe poder recuperarse de igual manera unvídeo que un documento completo o un registro de la base de datos. Aunque este aspecto se abordaráen mayor profundidad en el siguiente punto, lo fundamental en este punto es que se recupere lainformación sin tener en cuenta en qué forma se encuentre esta.3.3.3. La recuperación de información Un punto clave en el diseño de una base de datos documental es el relativo al sistema derecuperación de información. Por muy bien que la base de datos almacene sus registros, si estos nopueden ser recuperados de forma eficiente, ésta carecerá de utilidad. En el Sistema Integral de Gestiónde Información tenemos tanto bases de datos documentales como de tipo relacional. En este segundosupuesto la recuperación de información (datos más bien en este caso) se efectuará mediante ellenguaje más apropiado, SQL. Este lenguaje es perfecto para realizar búsquedas en una base de datosrelacional, al tiempo que permite el almacenamiento de consultas. No es preciso que nos extendamosen detalles acerca de la recuperación de información con SQL, ya que no es el lugar apropiado y labibliografía es abundante; resulta de mayor interés tratar la recuperación en la base documental y lainterfaz de consulta.XQUERY De manera rápida podemos definir XQuery con un símil en el que XQuery es a XML lomismo que SQL es a las bases de datos relacionales. XQuery es un lenguaje de consulta diseñado para escribir consultas sobre colecciones de datosexpresadas en XML. Abarca desde archivos XML hasta bases de datos relacionales con funciones deconversión de registros a XML. Su principal función es extraer información de un conjunto de datosorganizados como un árbol n-ário de etiquetas XML. En este sentido XQuery es independiente delorigen de los datos. 23
  24. 24. Modelado de Documentos y Sistemas de Información con XML XQuery es un lenguaje funcional, lo que significa que, en vez de ejecutar una lista decomandos como un lenguaje procedimental clásico, cada consulta es una expresión que es evaluada ydevuelve un resultado, al igual que en SQL. Diversas expresiones pueden combinarse de una maneramuy flexible con otras expresiones para crear nuevas expresiones más complejas y de mayor potenciasemántica. XQuery está llamado a ser el futuro estándar de consultas sobre documentos XMLActualmente, XQuery es un conjunto de borradores 7 en el que trabaja el grupo W3C. Sin embargo, apesar de no tener una redacción definitiva ya existen o están en proceso numerosas implementacionesde motores y herramientas que lo soportan. Aunque XQuery y SQL puedan considerarse similares en casi la totalidad de sus aspectos, elmodelo de datos sobre el que se sustenta XQuery es muy distinto del modelo de datos relacional sobreel que apoya SQL, ya que XML incluye conceptos como jerarquía y orden de los datos que no estánpresentes en el modelo relacional. Por ejemplo, a diferencia de SQL, en XQuery el orden es que seencuentren los datos es importante y determinante, ya que no es lo mismo buscar una etiqueta <B>dentro de una etiqueta <A> que todas las etiquetas <B> del documento (que pueden estar anidadasdentro de una etiqueta <A> o fuera). XQuery ha sido construido sobre la base de Xpath 8. Xpath es un lenguaje declarativo para lalocalización de nodos y fragmentos de información en árboles XML. XQuery se basa en este lenguajepara realizar la selección de información y la iteración a través del conjunto de datos. Una consulta en XQuery es una expresión que lee una secuencia de datos en XML y devuelvecomo resultado otra secuencia de datos en XML. Un detalle importante es que, a diferencia de lo quesucede en SQL, en XQuery las expresiones y los valores que devuelven son dependientes del contexto.En XQuery, cuando usamos el térmico tupla, nos estamos refiriendo a cada uno de los valores quetoma una variable. A continuación se muestra un ejemplo de consulta con XQuery. for $b in doc("libros.xml")//libro let $c := $b//autor where count($c) > 2 order by $b/titulo return $b/ titulo Figura 7. Ejemplo de consulta con XQuery: devuelve los títulos de los libros que tengan más de dos autores, ordenados por su título. <title>Data on the Web</title> Figura 8. Resultado de la consulta anterior.7 Documento principal del grupo de trabajo Xquery: http://www.w3.org/TR/xmlquery-req8 Documentación sobre Xpath: http://www.w3.org/TR/xpath20/ 24
  25. 25. Modelado de Documentos y Sistemas de Información con XML La propuesta de este trabajo se centra en la posibilidad de un único lenguaje de consulta paraambas bases de datos, esto es, aprovechar la potencia de XQuery para consultar al mismo tiempo y deforma transparente la base documental y la relacional. Como se comentó anteriormente, se buscadiseñar un sistema dotado de una integración total de la información contenida en el mismo, donde elusuario realice consultas con independencia del formato de la información buscada. XQuery actuarácomo lenguaje-interfaz para unificar todas las consultas a las bases de datos del sistema, recuperandode forma transparente al usuario cualquier información en cualquier formato. La interfaz de usuario debe permitir buscar de la forma tradicional, por medio de los clásicosoperadores booleanos o por frase exacta, como en cualquier sistema de búsqueda de propósito general.En un sistema como este, sería fundamental implementar una opción de incluir campos por los querecuperar la información. Pero ese sólo sería el primer paso. Tras esta búsqueda inicial, los resultadosse mostrarán al usuario por medio de un ranking con enlaces a los documentos. A partir de la selecciónde un documento resultado comenzará un proceso de browsing, desde los documentos seleccionadoshasta otros que tengan semántica similar, es decir, que traten temas similares. Esta navegación por lared semántica se apoya en la existencia de un tesauro subyacente que al mismo tiempo tiene la funciónmás clásica de lenguaje del sistema.3.3.4. Conectividad entre la base de datos documental y relacional De lo expuesto en el punto anterior, puede desprenderse que para lograr una total eficiencia enla recuperación de información de forma integrada es preciso un alto grado de conectividad entre lasdos bases de información del sistema. Debe proporcionarse tanto un lenguaje que sirva de interfaz común a la recuperación deinformación, como un medio de comunicación de registros entre ambas. Por supuesto, ha de tenerse encuenta las particularidades de ambas bases de datos, ya que proporcionan diferentes niveles deflexibilidad a la hora de emplear lenguajes de programación sobre ellas. Por un lado, las bases de datos, ya sean comerciales o libres, suelen estar dotadas de conexióna diversos lenguajes de programación y poseen herramientas de desarrollo de aplicaciones compatiblescon ellas. Sin embargo, el caso de las bases de datos documentales es diferente: aquí el margen demaniobra es menor, no suele proporcionarse el código de la aplicación y disponen de conexiones muylimitadas con lenguajes de programación. De nuevo, XML es la respuesta a las necesidades de intercambio de información entreaplicaciones. XML funciona perfectamente como interfaz de exportación e intercambio de registrosentre las dos bases de datos, si bien normalmente se precisa de algún lenguaje de script que exporteprimero esa información a XML. En el caso de la base de datos relacional, PHP o Perl pueden ser unabuena solución como lenguaje de exportación a XML; en el caso de la base de datos documentaldependerá de la aplicación concreta (por ejemplo, en el caso de Lotus Domino, “Lotus Script”). 25
  26. 26. Modelado de Documentos y Sistemas de Información con XML Figura 9. Modelo de conectividad base de datos relacional / documental.3.4. El subsistema de tesauro La definición más aceptada de tesauro es la de “un lenguaje documental de estructuracombinatoria, de carácter especializado, que se basa en expresiones conceptuales llamadasdescriptores, provistas de relaciones semánticas de tres tipos: equivalencia, asociación y jerarquía 9”. Los tesauros son realmente instrumentos de control terminológico en entornos de RI y, aunquese pueden encontrar ciertas analogías con otros recursos como las ontologías, la estructura de lostesauros suele ser más mucho más simple y menos definida, además de contar con una menordiferenciación léxico-semántica. El tesauro servirá como base al lenguaje del sistema, siendo de utilidad tanto en el momentode la selección de términos de indización como en el momento de la recuperación de información. Como se comentó anteriormente, la especificación XML elegida para trabajar con el tesaurodel sistema es SKOS-Core. Este lenguaje a día de hoy es la propuesta más concreta para larepresentación de tesauros en el entorno de la web semántica. SKOS-Core permitirá diseñar la estructura del tesauro de forma eficiente y ofrece todas lasventajas en gestión de la información que cualquier especificación XML. Este tesauro será la base de9 PÉREZ AGÜERA, JOSÉ RAMÓN (2004): “Automatización de tesauros y su utilización en la web semántica”, BiD: textos universitaris de biblioteconomía i documentació, 2004, 13. 26
  27. 27. Modelado de Documentos y Sistemas de Información con XMLtoda las estructura de browsing del sistema de recuperación, guiando al usuario desde los documentosobtenidos en respuesta a una consulta hasta otros semánticamente relacionados. Los documentos, además de estar fragmentados en componentes XML, han de ser indizadosde acuerdo a la terminología elegida para este tesauro. Los descriptores definientes de la semántica delos documentos se convierten en nuestro sistema en enlaces a otros nuevos documentos, que quizá noaparecieron en la consulta original, pero que tienen alguno de éstos términos en común. De este modo, el tesauro puede guiar la navegación del usuario, llevándole a encontrardocumentos que, o bien no supo encontrar en la formulación de la búsqueda inicial, o bien abrennuevas vías o interrogantes a su investigación. Esta idea nos lleva de nuevo a la propuesta del hipertexto a dos niveles de Pastor y Saorín: laabstracción de la semántica de los documentos en una red conceptual subyacente (en este caso eltesauro), accesible a través de enlaces mediante una interfaz de browsing. Figura 10. Hipertexto a dos niveles: un mismo concepto puede aparecer en varios documentos.3.5. El subsistema de publicación de contenidos y DSI La sindicación de contenidos se presenta como una forma de aunar lo mejor de las tecnologíaspush y pull. Se trata de una enorme ganancia que combina la tecnología push (de empujar contenidos alos portales) pero también la pull porque agrega información dispersa y la presenta de modoconsolidado en múltiples sitios. Todos estos aspectos tienen que ver con la denominada gestión decontenidos, encargada de capturar información desde diferentes fuentes (en este caso las más 27
  28. 28. Modelado de Documentos y Sistemas de Información con XMLimportantes serán las bases de datos documentales y relacionales del sistema), analizándola,categorizándola y finalmente entregándola a los usuarios de forma personalizada si se requiere así. Efectivamente, el sistema de sindicación de contenidos debe estar dotado de una metodologíade personalización de la información que publica, o de canales temáticos que reúnan a determinadosgrupos de usuarios con intereses comunes. Llegados a este punto, debe destacarse también que, en unsistema de sindicación de contenidos, la presentación de la información se encuentra separada de losdatos mismos, para esto se pueden emplear hojas de estilo, como XSL, que definan la forma en que semuestra al usuario. La información publicada en este subsistema puede ser reutilizada posteriormente,lo que añade al mismo un nuevo valor añadido. El lenguaje a emplear para la difusión de la información en este sistema de gestión decontenidos es RDF. Ya que vamos a trabajar con datos heterogéneos procedentes en su mayor parte delas bases de datos relacionales y documentales del sistema, RDF es la solución para describir estosrecursos. A partir del repositorio de información que constituyen las dos bases de información delsistema, el Subsistema de Publicación de Contenidos va actualizándose periódicamente. Lainformación es servida en distintos niveles, desde la página principal del portal de la organización coninformación general hasta el espacio propio de un usuario concreto. Aquí se hace patente el conceptode Difusión Selectiva de la Información (DSI), ya que la sindicación de contenidos se adaptará a lasnecesidades informativas concretas del usuario. El proceso de sindicación de contenidos tiene lugar tras la entrada y descripción de losdocumentos nuevos en el sistema. Tras haberlos indizado y convertido a XML, el subsistema depublicación de contenidos actuará como “filtro” a partir del contenido semántico de los mismos(descriptores). La publicación en el portal corporativo se efectuará mediante RDF, pudiendo crear pequeñosresúmenes del sitio mediante RSS si es preciso. Aquí es donde entra en juego el método push, ya quela información de interés se “empuja” hacia el espacio del usuario o hacia los canales temáticos. Lainformación servida se ordenará por ranking de importancia para el usuario, dejando en la partesuperior los nuevos documentos entrantes que coincidan más con el perfil de interés informativo. El correo electrónico es también interesante para efectuar avisos sobre la entrada deinformación nueva de interés, implementado un mecanismo de envío automático de mensajes de alertaa los usuarios. 28
  29. 29. Modelado de Documentos y Sistemas de Información con XML Figura 11. Proceso de subsistema de publicación de contenidos.V. Conclusiones El presente trabajo ha mostrado que es posible el empleo de XML y lenguajes derivados en eldiseño de documentos y sistemas de información, y que esto trae consigo una serie de ventajas. Lapotencia de este lenguaje para la descripción de los documentos y la facilidad que ofrece para elintercambio de información, lo hace ideal para el diseño de sistemas de información. Se ha demostrado que, desde el momento de la entrada en el sistema, los documentos puedenser estructurados y gestionados de forma modular según sus partes constituyentes, facilitando de estemodo su almacenaje y una recuperación más inteligente. Este último aspecto, el de la recuperación, hasido cubierto con el empleo del lenguaje de consulta XQuery, aún en fase de desarrollo, aunque sucapacidad de consulta en bases de datos relacionales y documentales lo hacen sumamente interesante. De los diversos derivados de XML, se han analizado aquellos que podían ser aplicados aldiseño de los subsistemas de nuestro sistema de información. SKOS-Core se presenta como la mejoropción para el diseño del Lenguaje del Sistema, el Tesauro, facilitando en gran medida su modelado yla reutilización de sus contenidos. En referencia al Subsistema de Publicación de Contenidos, se hapresentado RDF como la mejor propuesta para la sindicación de los objetos de información, deacuerdo a los perfiles de interés de los usuarios. Con todo lo visto, cabe destacar que, el empleo de XML en sistemas de información aportaimportantes mejoras en el ámbito de la gestión de la información documental, su intercambio ydifusión. Sin embargo, las dificultades se centran en la multiplicidad de derivados de XML, lasdiferentes versiones de los lenguajes (que pueden crear incompatibilidades) y la falta de desarrollo dealgunas de las propuestas. A pesar de ello, una vez salvados estos escollos, se facilitará enormementeel diseño de sistemas de información totalmente integrados, donde los documentos, 29
  30. 30. Modelado de Documentos y Sistemas de Información con XMLindependientemente del formato, sean tratados como objetos de información. Estos objetos podrán ser tratados, recuperados y difundidos con independencia de su forma yde manera transparente al usuario. Esta integración entre los diferentes subsistemas también ayudará aeliminar las tareas duplicadas, permitiendo la reutilización de los objetos de información, y mejorará lafluidez en el intercambio de los mismos.VI. BibliografíaABAITUA, J.; BARRUTIETA, G.; DÍAZ, J.; JACOB, I.; QUINTANA, F., 2003, Contenidos ymetacontenidos en la edición digital. Letras de Deusto, núm. 100, vol. 33. Págs11-52. Bilbao.Universidad de Deusto, 2003.ANGOS ULLATE, J.M.; FERNANDEZ RUIZ, M.J.; SALVADOR OLIVÁN, J.A.; VILAS LARRÉ,M. Necesidad de una metodología que optimice la gestión documental: estudio de un caso práctico.Valencia, FESABID, 1998. 13 p. (VI Jornadas Españolas de Documentación).MARTÍN GALÁN, B.; RODRÍGUEZ MATEOS, D. "Estructuración de la información medianteXML: un nuevo reto para la gestión documental". En: Jornadas de Documentación (7ª. Bilbao. 2000).Bilbao: Universidad del País Vasco; FESABID, 2000, pp. 113-123.MÉNDEZ RODRÍGUEZ, E.M. Metadatos y Tesauros: aplicación de XML/RDF a los sistemas deorganización del conocimiento en Intranets. En: Jornadas Españolas de Documentación (7. 2000.Bilbao) . La gestión del conocimiento: Retos y soluciones de los profesionales de la información.[Bilbao]: Universidad del País Vasco, 2000, p. 211-219.GOLDFARB, C.F. Manual de XML / Charles F. Goldfarb y Paul Prescod. -- Madrid, [etc.] : Prentice-Hall, 1999.HILERA GONZÁLEZ, J. R; MARTÍNEZ SÁNCHEZ, J. M. El papel de la documentación en lagestión automatizada de flujos de trabajo. Revista General de Información y Documentación, 1998,vol. 8, nº 2, p. 141-147.NOGALES FLORES, J. T.; MARTÍN GALÁN, B.; ARELLANO PARDO, M.C. "Informática,Derecho y Documentación. Experiencias y posibilidades de aplicación de los lenguajes de marcado detexto (SGML, HTML y XML) a los documentos jurídicos". En: Encuentro sobre Informática yDerecho. (16º. Madrid. 2002). Madrid: Instituto de Informática Jurídica, Universidad Pontificia deComillas, 2003. 30
  31. 31. Modelado de Documentos y Sistemas de Información con XMLMARTÍNEZ SÁNCHEZ, J. M.; HILERA GONZÁLEZ, J. R. Los sistemas de gestión documental enel ámbito del trabajo corporativo. Revista General De Información y Documentación. 1997;7:237-255.MARTÍNEZ SÁNCHEZ, J. M.; HILERA GONZÁLEZ, J. R.; MARTÍNEZ, J. Y GUTIÉRREZ, J. A.(1996): "Orientación a Objetos en la Documentación Hipermedia". Actas de las II Jornadas sobreTecnologías de Objetos. Madrid, Asociación de Técnicos de Informática, SIMO TCI, 1996, 49-54.MORRISON, M. XML al descubierto : la solución más completa / Michael Morrison...[et al.]. --Madrid, [etc.] : Prentice-Hall, 2000.PASTOR SÁNCHEZ, J.A.; SAORÍN PÉREZ, T. “El hipertexto documental como solución a la crisisconceptual del hipertexto: El reto de los documentos cooperativos en redes”. En: Cuadernos deDocumentación Multimedia, nº 4, 1995.PASTOR SÁNCHEZ, J. A.; SAORÍN PÉREZ, T. “La escritura hipermedia”. Cuadernos deDocumentación Hipermedia , 1997-8, nº 6-7, p. 221-238.PÉREZ AGÜERA, J.R. (2004): “Automatización de tesauros y su utilización en la web semántica”,BiD: textos universitaris de biblioteconomía i documentació, 2004, 13.SENSO, J. A.; ROSA, A. DE LA. Especificaciones XML aplicadas a la documentación. En:FUENTES I PUJOL, María Eulàlia (dir.). Bibliodoc 1999. Anuario de biblioteconomía,documentación e información. Barcelona: Col•legi oficial de bibliotecaris-documentalistes deCatalunya, 1999.SIMINIANI, M. Intranets, empresa y gestión documental : cómo enfocar en la práctica la tecnologíadesde la necesidad de eficiencia en todo tipo de empresas / Mariano Siminiani. -- Madrid [etc.] :McGraw-Hill, D.L. 1997. 31

×