Els repositoris digitals d'interès per a la comunitat universitària i investigadora, desenvolupats per la unitat de Portals i Repositoris del Centre de Supercomputació de Catalunya (CESCA) en els darrers 10 anys, van ser exposats en el marc de la Conferencia de Rectores de las Universidades Españolas - Comisión Sectorial (TIC-CRUE). Així, es va parlar de les experiències dels repositoris Tesis Doctorals en Xarxa (TDX), Dipòsit de la Recerca de Catalunya (RECERCAT), Revistes Catalanes amb Accés Obert (RACO), Patrimoni Digital de Catalunya (PADICAT), Repositorio Español de Ciencia y Tecnología (RECYT), Materials Docents en Xarxa (MDX), del recentment creat CALAIX i del pilot actualment en desenvolupament Patrimonio Digital de Ciencia y Tecnología (PADICYT).
Aquests repositoris digitals han estat desenvolupats pel CESCA en col·laboració o com a soci tecnològic d'altres institucions com el Consorci de Biblioteques de Catalunya, la Biblioteca de Catalunya, la Fundación Española para la Ciencia y la Tecnología i el Departament de Cultura i Mitjans de Comunicació de la Generalitat de Catalunya.
TIC-CRUE, Repositorios Institucionales de Información Heterogénea, Universidad de Jaén, Jaén, 22-10-10, 12 h.
1. Repositorios digitalesRepositorios digitales
Ricard de la Vega
Jefe del Servicio de Portales y Repositorios
Centre de Supercomputació de Catalunya (CESCA)
CRUE-TIC
Repositorios Institucionales de Información Heterogénea
Jaén, 21-22 de octubre de 2010
2. AgendaAgenda
CESCA
10 años de repositorios en el CESCA
• TDR, RECERCAT, RACO y MDX
• PADICAT (BC)
• RECYT y PADICYT (FECYT y MICIN)
• CALAIX (DCiMC de la Generalitat de Catalunya)
Características de los repositorios cooperativos
Software y hardware
Conclusiones
3. Centre de SupercomputaciCentre de Supercomputacióó dede CatalunyaCatalunya
Consorcio público
Creado en 1991
Formado por:
• Generalitat de Catalunya
• Fundació Catalana per a la
Recerca i la Innovació
• 9 universidades catalanas
• Consejo Superior de
Investigaciones Científicas
5. Taxonomia de losTaxonomia de los repositoriosrepositorios
Towards a European e-Infrastructure for e-Science Digital Repositories. 7th e-Concentration Meeting, Brussels, 12-14th October, 2009
6. Repositorios digitales
Tesis Doctorales en Red (TDR)
Dipòsit de la Recerca de Catalunya
Revistes Catalanes amb Accés Obert
Patrimoni Digital de Catalunya (PADICAT)
Repositorio Español de Ciencia y Tecnología
Materials Docents en Xarxa (MDX)
CALAIX, repositorio del DCiMC
Patrimonio Digital de Ciencia y Tecnología
7. Tesis Doctorales en Red
Desde 2001, 19 universidades
9.618 tesis doctorales
Desde 2007, recolector tesis españolas
+ 19.000 tesis a través de OAI-PMH
Software: ETDdb (migrando a DSpace)
www.tesisenred.net
8. Dipòsit de la Recerca de Catalunya
www.recercat.cat
Desde 2005
19 instituciones
299 colecciones
21.158 documentos de investigación
Modelo híbrido, depósito y recolector
Software: DSpace
9. Revistes Catalanes amb Accés Obert
www.raco.cat
Desde 2006
60 instituciones editoras
289 revistas
114.671 artículos
Software: Open Journal Systems
10. Patrimoni Digital de Catalunya
www.padicat.cat
Proyecto de la Biblioteca de Catalunya
Desde 2006
53.249 capturas de 30.481 webs
200 millones de ficheros en 7,5 TB
Captura selectiva de convenios y
recomendaciones
Captura exhaustiva del dominio .cat
Monográficos: Elecciones, Museos...
Software: Heritrix, NutchWAX,
Wayback,WERA, CAT...
11. Repositorio Español de Ciencia y Tecnología
http://recyt.fecyt.es
Proyecto “llave en mano” para la FECYT
Desde 2007
Entorno de pruebas, soporte y formación
Software: Open Journal Systems
12. Materials Docents en Xarxa
www.mdx.cat
Desde 2009
10 universidades
1.668 materiales docentes
Modelo híbrido (recolector)
Software: DSpace
13. CALAIX, repositorio del DCiMC
Proyecto del DCiMC de la Generalitat de Catalunya
Desde 2010 (22 de septiembre)
2.000 memorias de intervenciones arqueológicas
3.000 imágenes de restauraciones
1.500 planos de monumentos, etc.
Software: DSpace http://calaix.gencat.cat
14. Patrimonio Digital de Ciencia y Tecnología
Piloto para el MICINN
En desarrollo 2009-2010
Software: Heritrix, NutchWAX, Wayback...
15. AgendaAgenda
CESCA
10 años de repositorios en el CESCA
• TDR, RECERCAT, RACO y MDX
• PADICAT (BC)
• RECYT y PADICYT (FECYT y MICIN)
• CALAIX (DCiMC de la Generalitat de Catalunya)
Características de los repositorios cooperativos
Software y hardware
Conclusiones
16. Facilitan la adopción de
procedimientos comunes
Compartición de costes
Economías de escala
Mayor visibilidad
Características de los repositorios cooperativos
Cooperativos Acceso abierto
Acceso en línea, gratuito,
inmediato y permanente al texto
completo de un artículo
Iniciativas impulsadas por
diversas organizaciones que se
basan en las declaraciones de
Budapest, Bethesda y Berlín
(BBB), a partir del 2000
Software libre, interoperatibilidad, ...
17. Software
Se ha hecho un estudio inicial para cada repositorio con
el objetivo de conocer qué software sería el más
adecuado en cada caso
Todos los repositorios son software de código abierto,
hecho que ha permitido, entre otras ventajas, la
adaptación a las necesidades concretas de cada
proyecto
Interoperatividad a través de OAI-PMH
• Proveedores de datos
• Proveedores de servicios
18. SoftwareSoftware
Repositorios de propósito general: DSpace
Implementado en:
Gestión y publicación de revistas: Open Journal Systems
Implementado en:
Repositoris de sitios web: Heritrix, etc.
Implementado en:
+ Adaptaciones, ampliación funcionalidades, desarrollo de módulos
complementarios, software complementario...
19. Hardware
~80 GB y 7.690 consultas
HP V2500 (cálculo)
• 16 procesadores
• 4 GB de memoria
• 227 GB de disco
StorageTek TimberWolf 9740
• 2,7 TB en cintas
2001 2005 2006 2006 2009 2010
20. Hardware
En 2003 ~100 GB y 278.710 consultas
HP rp5430 (servidor)
• 2 procesadores PA8700
• 704 GB de memoria
HP EVA V.2 (cabina de discos)
• 2,8 TB de disco
StorageTek TimberWolf 9740
• 5 TB en cintas
2001 2005 2006 2006 2009 2010
21. Hardware
En 2010 ~10 TB y 8.019.930 consultas (TDR+RECERCAT+RACO)
Clúster de e-Información
• 32 nodos Proliant DL360
• 291 GB de memoria
NetApp FAS3140
• 100 TB de disco
ADIC Scalar i2000
• 156 TB en cintas
2001 2005 2006 2006 2009 2010
22. ConclusionesConclusiones
En 10 años... 7 repositorios, casi 8
TDR, RECERCAT, RACO, MDX,
PADICAT, CALAIX
RECYT, PADICYT
Con la cooperación:
Adopción procedimientos comunes
Compartición de costes
…
Economías de escala
• En software
• En hardware
• En el equipo humano