Universidad de GranadaFacultad: Facultad de Comunicación y DocumentaciónDepartamento: Biblioteconomía y DocumentaciónNombr...
ÍNDICEINTRODUCCIÓN............................................................................. 3METODOLOGÍA Y OBJETIVOS ....
INTRODUCCIÓNEn la sociedad del conocimiento en la cual hoy estamos inmersos, la información seha convertido en un pilar im...
§   Sistema de Gestión Bibliotecaria Absys v.7. Los registros bibliográficos que        se han catalogado y que se van a v...
necesidad y la validez de los sistemas tradicionales de información, basados en un costoso proceso deanálisis documental”O...
En esta investigación se han detectado, otras razones para este problema, enrelación a las cargas realizadas en los distin...
**************************************************                     650        ****************************************...
2   soneto        2   trujillo a su excelsa patrona la virgen de la victoria en sus fiestas        5   villancicos que se ...
Registro de absys:    León Marchante, Manuel de    Villancicos que se han de cantar en la Santa Iglesia Magistral de S. Iu...
MISMO TÍTULO /                                                                      DISTINTAS                             ...
4. 46 registros bibliográficos no son duplicados (36,8%). Aunque presentan             el mismo título, son ediciones dife...
Gráfico del proceso de detección de duplicados:    CARGA DE ABSYS                                 BASE DE DATOS           ...
CONCLUSIONESLa calidad de las bases de datos lleva consigo un aumento de la calidad de losdistintos procesos que la confor...
MISMO                                 MAYOR                  SOFTWARE                            IMPLICACIÓN              ...
En conclusión, todos los esfuerzo que se realicen para la mejora de los catálogos,revierten en una mayor calidad en el acc...
Upcoming SlideShare
Loading in …5
×

Control de calidad de cargas bibliográficas

387 views

Published on

Memoría de proyecto de investigación sobre el control de calidad de registros bibliográficos en las bases de datos

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
387
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Control de calidad de cargas bibliográficas

  1. 1. Universidad de GranadaFacultad: Facultad de Comunicación y DocumentaciónDepartamento: Biblioteconomía y DocumentaciónNombre: Josefina Vílchez Pardo Proyecto de investigación Control de registros bibliográficos duplicados en las bases de datos Nombre: José Mario Martín Rivas Asignatura: Práctica y Memoria Curso: 3º B Fecha:04.07.2011
  2. 2. ÍNDICEINTRODUCCIÓN............................................................................. 3METODOLOGÍA Y OBJETIVOS ......................................................... 3DESARROLLO ................................................................................. 4CONCLUSIONES ........................................................................... 13BIBLIOGRAFÍA ............................................................................ 15 2
  3. 3. INTRODUCCIÓNEn la sociedad del conocimiento en la cual hoy estamos inmersos, la información seha convertido en un pilar importante para la generación de dicho conocimiento.Existen diversas fuentes que posibilitan el acceso a la información. Una de ellas sonlos catálogos automatizados de las bibliotecas. En ellos se puede encontrar losdistintos fondos bibliográficos de una biblioteca y las localizaciones de sus registros.Estos catálogos pueden ser propios de una sola biblioteca o pertenecer a uncolectivo de estas. Tanto en un caso como en otro, se esta produciendo unproblema de graves consecuencias. Este es, la duplicidad de registros bibliográficos.Esta cuestión produce un aumento cuantitativo del catálogo de la biblioteca de unamanera negativa y de forma paralela, un conflicto para la recuperación dedocumentos. Las localizaciones de estos documentos se encontrarán dispersas pordistintos registros bibliográficos.Esta investigación, tratará sobre la identificación de las causas de esta situación.Además se desarrollará un método de control para minimizarla. He aquí laimportancia a nivel personal y social de esta investigación.En esta investigación he buscado conexiones con otros trabajos que me ayuden adesarrollar los datos obtenidos. He utilizado el artículo con título “Evaluación de lacalidad en la automatización de bibliotecas” (1).Para este estudio, me baso en mi trabajo en la empresa Baratz, donde he trabajadocon distintas cargas de registros bibliográficos de fondo antiguo, para su posteriorcarga en el Catálogo Colectivo del Patrimonio Bibliográfico (a partir de ahora CCPB).En los siguientes puntos se desarrollarán las aplicaciones utilizadas, los erroresidentificados y el método de control.METODOLOGÍA Y OBJETIVOS 1. Aplicaciones y bases de datosSe han utilizado las siguientes aplicaciones: 3
  4. 4. § Sistema de Gestión Bibliotecaria Absys v.7. Los registros bibliográficos que se han catalogado y que se van a volcar en la base de datos del CCPB, se ha realizado con el Sistema de Gestión Bibliográfica Absys v.7, en el módulo de catalogación. La carga contiene 1120 registros bibliográficos, que antes de ser realizados, han sido buscados en la base de datos de CCPB (cd de abril de 2010), para comprobar si ya estaban incluidos. § Base de datos de CCPB correspondiente a la última actualización mandada por CCPB de abril de 2010. § Servidor con sistema operativo Linux Red HAT AS4, y se trabajará con el Editor VI de dicho sistema operativo 2. TécnicasSe cargarán en Linux tanto la carga de registros nuevos realizados con Absys y laperteneciente a la base de datos de CCPB. Se trabaja en BRS y con la utilización deun script, se identificarán los registros duplicados entre las dos cargas. Con elEditor VI, se corregirá los errores detectados. 3. ObjetivosLos objetivos de esta investigación es identificar las distintas causas de laduplicidad de registros en la base de datos del CCPB producidas por el volcado decargas. Así como desarrollar un método que posibilite la detección de estos casos ysu posterior corrección.DESARROLLO 1. CasuísticaComo se ha comentado anteriormente, en este trabajo, se va a relacionar lainvestigación con el artículo de título “Evaluación de la calidad en la automatizaciónde bibliotecas” (1). En este artículo, entre otros datos, se identifican algunas de lasposibles causas de la existencia de duplicados en las bases de datos bibliográficas.En él se habla de los volcados de información a las bases de datos, como una de lascausas:“Las nuevas tecnologías que permiten el volcado de grandes cantidades de información con un escasoproceso de elaboración, conformando bases de datos bibliográficas que pretenden poner en entredicho la 4
  5. 5. necesidad y la validez de los sistemas tradicionales de información, basados en un costoso proceso deanálisis documental”Otra de las causas identificadas, son los distintos métodos de trabajo, comoconsecuencia de los cambios de software, la no elaboración de manuales deprocedimientos, señalando las especificaciones a seguir para conseguir un trabajounificado, e incluso la falta de preparación de los centros:“Los cambios en el software documental que derivan en transvases de información, con las consiguientesperdidas de datos y errónea distribución de información en los campos marc.La inexistencia de un manual de procedimiento común de introducción de datos en los centros deinformación que permitan recoger toda la casuística surgida para obtener la uniformidad en el proceso.Los numerosos cambios en los métodos de trabajo, que dificultan la homogeneización en los registros.La inexperiencia de algunos centros así como la escasa preparación de su personal en procesos deautomatización de fondos bibliográficos”Una causa más, para la baja calidad de las bases de datos bibliográficas, seproduce con la asignación de puntos de acceso:“Asignar correctamente los términos de acceso: § Autores y entidades § Títulos § Series § Materias § Control de clasificación § Homogeneización entre clasificación y materia”La mayor parte de estas causas, han sido identificadas en la investigación, enrelación a la base de datos bibliográficos de CCPB. En un principio, este catálogo senutría de las bases de datos de las distintas Comunidades Autónomas. Cada unacon un software, especificaciones de procedimiento y métodos de trabajodiferentes. Así como algunos centros con inexperiencia y escasa formación de supersonal.Esto produjo, un volcado de información masivo, donde se observan registrosduplicados, con diferentes descripciones, por ejemplo, en relación a puntos deacceso o a la reunificación de ediciones distintas.Hay que decir que por parte de CCPB, existe un proceso exhaustivo para laidentificación de estos duplicados y la posterior asociación de sus localizaciones. 5
  6. 6. En esta investigación se han detectado, otras razones para este problema, enrelación a las cargas realizadas en los distintos centros: Ø Omisión de información en los registros de CCPB. Esto genera el hecho de que las búsquedas no den los resultados esperados y por tanto se catalogue de nuevo el documento. Ø Errores de ortografía y gramaticales, tanto en la sentencia de búsqueda como en los registros de CCPB, produciendo unos resultados de búsqueda negativos. No son tanto los errores de ortografía como los errores de transcripción de los caracteres en latín de obras de siglos XVI al XVIII, donde la utilización de los caracteres “v” y “i” en detrimento de la “u” y “j”, producen graves problemas. Ø Los plazos de entrega para el volcado de las cargas, demasiado largos, y que producen que registros ya catalogados, pero aún no visibles en el catálogo, sean de nuevo descritos. 2. Proceso de detección de duplicadosEste proceso se ha desarrollado para la detección de los registros duplicados y suposterior corrección, previo a su volcado en la base de datos de CCPB.Consta de varias fases: § Fase 1: se cargan los registros bibliográficos, tanto los realizados con el Absys 7 y los pertenecientes al CCPB, en el servidor con el sistema operativo Linux. A partir de este momento todo el trabajo se realizará en este entorno, con la posterior utilización del gestor documental BRS y del Editor VI. ABSYS7_CCPB>brsload prue -create -file rae_SD -force -ver Start of BRS Load Process for PRUE -- Thu Jun 30 10:01:17 2011 Input file is rae_SD BRS Load Process -- Loading All Documents ************************************************** 50 ************************************************** 100 ************************************************** 150 ************************************************** 200 ************************************************** 250 ************************************************** 300 ************************************************** 350 ************************************************** 400 ************************************************** 450 ************************************************** 500 ************************************************** 550 ************************************************** 600 6
  7. 7. ************************************************** 650 ************************************************** 700 ************************************************** 750 ************************************************** 800 ************************************************** 850 ************************************************** 900 ************************************************** 950 ************************************************** 1000 ************************************************** 1050 ************************************************** 1100 ************************* Text Update Step Statistics: Documents: Added 1125, Dropped 0, Total in DB 1125 Words: Added 105593, Dropped 0, Stopped 0 Values: Added 5260, Dropped 0, Abbreviations 1820 Amount of Input Processed: 51670 lines Space left by deleted documents: 0 bytes Unchanged words dropped from sort process: 0 § Fase 2: se desarrolla un script 1, el cual ejecutará diversas acciones: Ø De cada una de las cargas, tomará la primera línea del campo marc 245. Ø Eliminará todos los signos de puntuaciones ortográficos y las mayúsculas. Ø Realiza una comparativa de caracteres entre las dos cargas e identifica aquellos que contiene la misma cadena de caracteres Ø El resultado será un fichero, el cual contiene los títulos duplicados y el número de repeticiones El resultado de este fichero en la muestra utilizada en esta investigación, es de 125 títulos (10,42 %) con un máximo de tres repeticiones. -rw-rw-r-- 1 absys absys 1258 may 29 15:45 t245_dup ABSYS7_CCPB>vi t245_dup 2 a los electores del distrito de los martires 2 asturianadas por bulerias que se va el vapor cantadas por 2 bonito tango de cadiz titulado los gallos dedicado al derribo de las 2 bulla de indulgencia plenaria concedida para las animas de los fieles 3 coleccion de canciones modernas 2 el cantor de las hermosas trovas de amor dedicadas al bello sexo 3 juana la valerosa hechos memorables y atrocidades que cometio esta 2 la tia girula chiste moderno acaecido en el pueblo de almeria con 2 lista de los abogados del llustre colegio de la audiencia de caceres 2 lista de los numeros y doncellas para la extraccion de la real loteria 2 minuete sacramental para gozo del alma y diversion del cuerpo de los 2 noticia de las obras pertenecientes a la direccion de trabajos hidrograficos 2 primera y segunda parte del testamento que ordeno el serenisimo señor1 Este script es solo uno de los utilizados en el control de calidad por parte de Baratz. A pesar de serdesarrollados para esta investigación, la propiedad de estos es de la empresa, y por tanto su contenidono puede ser mostrado. 7
  8. 8. 2 soneto 2 trujillo a su excelsa patrona la virgen de la victoria en sus fiestas 5 villancicos que se han de cantar en la santa iglesia cathedral de la 2 villancicos que se han de cantar en la sta iglesia cathedral de la 2 Comedia famosa. El legitimo bastardo 2 Diui Antonini Archiepiscopi florentini 2 I Fantasmi ~ ………………………. (hasta 125 títulos)§ Fase 3: en esta fase se utilizará tanto el BRS como el Editor VI. Con el fichero de títulos duplicados, se hará la búsqueda de estos títulos en las dos cargas y se comparará las descripciones bibliográficas. En el caso afirmativo de ser un duplicado, el registro bibliográfico de la carga de Absys, será eliminado y su localización, ósea su campo marc 852, pasará a ser un fondo bibliográfico que estará asociado a un registro de CCPB. En caso negativo el registro quedará igual. El resultado final del fichero de duplicados, que contiene 125 títulos, después de trabajar en esta última fase es el siguiente: 1. 57 registros bibliográficos son duplicados (45,5%), por tanto pasan a ser fondos bibliográficos. Ejemplo: Villancicos que se han de cantar en la santa iglesia catedral Registro de ccpb: 8
  9. 9. Registro de absys: León Marchante, Manuel de Villancicos que se han de cantar en la Santa Iglesia Magistral de S. Iusto y Pastor de Alcalá de Henares la noche de Navidad deste año de 1674. -- [S.l. : s.n.], 1674 8 p. ; 4º Segun Catalina, nº 1212, el autor es Manuel de León Marchante y figuran en el tomo II de sus "Poesias". Lo cita como impresor en Alcalá de Henares Sign.: A4 Texto a dos col. 1. Villancicos españoles--S. XVII. MISMO TÍTULO / MISMO AUTOR / IGUAL EDICIÓN REGISTRO DUPLICADO TRANSFORMACIÓN A REGISTRO DE FONDO 2. 7 registros bibliográficos no son duplicados (8,75%). Estos presentan el mismo título, pero pertenecían a autores diferentes. Se mantienen como registros bibliográficos. Ejemplo:Comedia famosa. El legitimo bastardo / de ... Christoval de MoralesValencia : en la imprenta de la Viuda de Joseph de Orga, 1764Comedia famosa. El legitimo bastardo / de don Agustin MoretoBarcelona : por Juan Serra y : Nadal, [s.a.] 9
  10. 10. MISMO TÍTULO / DISTINTAS EDICIONES REGISTRO NO MANTENIMIENTO DUPLICADO REGISTRO BIBLIOGRÁFICO 3. 15 registros bibliográficos no son duplicados (18,75%). Estos presentan el mismo título, pero son obras por volúmenes y con años de publicación diferentes. Se mantendrán como registros bibliográficos. Ejemplo:Diui Antonini Archiepiscopi florentini ... Chronicorum secunda pars : quae a diuo Syluestro Port. Max.vsque ad Innocentium III ... res toto fere orbe gestas, & vitas ... Sanctorum ... doctorumque maximecelebrium dicta praeclara complectiturLugduni : ex officina Iuntarum et Pauli Guittii, 1586Diui Antonini Archiepiscopi florentini ... Chronicorum tertia pars : quae ab Innocentio III. Pont. Max. vsquead Pium II ... res toto fere orbe gestas exponit ; adiectis etiam aliquot doctorum catholicorum sententiis ...totius iuris Canonici capitibus, necnon & quorundam Sanctorum ...Lugduni : ex officina Iuntarum et Pauli Guittii, 1587 MISMO TÍTULO / DISTINTOS VOLUMENES REGISTRO NO MANTENIMIENTO DUPLICADO REGISTRO BIBLIOGRÁFICO 10
  11. 11. 4. 46 registros bibliográficos no son duplicados (36,8%). Aunque presentan el mismo título, son ediciones diferentes. Se mantienen como registros bibliográficos. Ejemplo: I Fantasmi / comedia del S. Hercole Bentiuoglio In Vinegia : appresso Gabriel Giolito de Ferrari, 1544 I Fantasmi, comedia del S. Hercole Bentivoglio Vinegia : appresso Gabriel Giolito de Ferrari, 1547 MISMO TÍTULO / DISTINTAS EDICIONES REGISTRO NO MANTENIMIENTO DUPLICADO REGISTRO BIBLIOGRÁFICOComo último paso de esta investigación, se ha realizado una prueba de control paraevaluar la validez del proceso. Esta consiste en la búsqueda de los registrosbibliográficos de Absys que no están presentes en el fichero de duplicados, un totalde 995 registros, en la base de datos de CCPB. El resultado es el siguiente: 5. 3 registros bibliográficos (0,9%). Aunque presentan el mismo título, son ediciones diferentes. Se mantienen como registros bibliográficos.La no localización de estos registros por parte del proceso de control, se debe a lapresencia de errores ortográficos en los títulos de la base de datos de CCPB. 11
  12. 12. Gráfico del proceso de detección de duplicados: CARGA DE ABSYS BASE DE DATOS DE CCPB F A S E LINUX 1 F SCRIP A S E FICHERO CON TÍTULOS 2 DUPLICADOS BUSQUEDA DE TÍTULOS CARGA DE BASE DE ABSYS DATOS DE CCPB F A S E COMPARATIVA DE 3 REGISTROS SI NO SE PASA LA SE MANTIENE COMO LOCALIZACIÓN (852) A REGISTRO BIBLIOGRÁFICO FONDO BIBLIOGRÁFICO 12
  13. 13. CONCLUSIONESLa calidad de las bases de datos lleva consigo un aumento de la calidad de losdistintos procesos que la conforman. El resultado de este avance en la calidad, es lamejora del sistema de información y por tanto del servicio que se les da a losusuarios.En esta investigación, nos hemos centrado en unos de sus puntos más importantes,como son los registros bibliográficos duplicados y las distintas causas que losproducen.Pienso que hay soluciones previas al comienzo de cualquier proyecto decatalogación, que ayudaría a disminuir esta situación. Estas serían: § Utilización de un mismo software. § Mayor implicación de las personas pertenecientes al proyecto. § Elaboración de un manual de especificaciones que contengan todas las casuísticas que se pueden dar en un proyecto de esta envergadura. § Elección de los distintos puntos de acceso. § Depuración de registros duplicados en la base de datos de origen. 13
  14. 14. MISMO MAYOR SOFTWARE IMPLICACIÓN DEL PERSONAL DEPURACIÓN REGISTROS DUPLICADOS MANUAL DE PROCEDIMIEN TO ELECCIÓN PUNTOS DE ACCESOAdemás de estas soluciones, los procesos de control de calidad en cualquierproyecto, es unos de los puntos más importantes para su buena finalización. Portanto creo, que el proceso que he desarrollado, basándome en los resultadosobtenidos, tiene una gran validez para la detección y corrección de este tipo desituaciones.Pienso que con este tipo de proceso, se elimina la posibilidad de aumentar losregistros duplicados en una base de datos. Con un tipo de control como eldesarrollado, la calidad de la base de datos aumenta.La solución para un futuro próximo, podría ser la utilización de un software para lacatalogación vía web. Este tipo de solución, trae consigo multitud de ventajas: § Trabajar sobre una base de datos actualizada. § Posibilidad de la conexión de múltiples usuarios. § La realización de registros duplicados sería en porcentajes mínimos. § La localizaciones se asociarían en el momento § Base de datos de autoridades y encabezamientos de materia unificada. 14
  15. 15. En conclusión, todos los esfuerzo que se realicen para la mejora de los catálogos,revierten en una mayor calidad en el acceso a la información y por tanto en unmejor servicio para el usuario.BIBLIOGRAFÍA 1. CEREZO LÓPEZ, Eva María, ALONSO CERVERO, Beatriz y GÓMEZ PÉREZ, Ana María. “Evaluación de la calidad en la automatización de bibliotecas” [artículo en línea]. El profesional de la información, vol. 11, nº 2, marzo-abril 2002. [Fecha de consulta: 30/06/11] http://www.elprofesionaldelainformacion.com/contenidos/2002/marzo/7.pdf 15

×