Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Maria Esteva, Texas Advanced ComputingCenter, University of Texas at AustinPANEL
Cyberinfrastructura para laadministración de datos deinvestigaciónMaria Esteva, Texas Advanced ComputingCenter, University...
Datos & investigación• Ciencia intensiva dedatos– Teoría, experimentos, ysimulaciones en elcontexto de datos masivos• Dato...
Formación de colecciones• Proyectos de investigación complejos y en evoluciónconstante• Tecnología y conocimientos cambian...
Perspectivas• La curación de datos tiene como temacentral el problema que trata lainvestigación• Enfoque desde las ciencia...
Infraestructura de datos @TACC• Equipo multidisciplinario• Corral• 6 Petabits de disco en línea• Sistema de archivo parale...
Bases de datos• Bases de datosrelacionales:MySQL, PostgreSQL, SQL Server– Pecan Street Project• ARK y Specify• GIS (Sistem...
Flexibilidad• Centro para la Investigación del Espacio (CSR)– Almacenamiento de datos provenientes de satélites,radares y ...
Multiples posibilidades• Gestión de datos durante el proyecto de investigación• Almacenamiento temporario de datos para pr...
Implementación de colecciones• TACC administra elacceso a lossistemas, instala losservidores/bases dedatos/librerías ydepe...
Flujos de trabajo– Diferentes flujos de datos– Transición sin fisuras entresistemas dealmacenamiento y deanálisis.
Metadatos e integración
Acceso• Acceso web abierto alpublico• Acceso cerrado duranteel periodo de embargo• WebDav• Protegido porcontraseña• Acceso...
Preservación• iRODS: bróker de archivosdistribuidos• Replica de archivos enRanch, un archivo decinta y replicacióngeográfi...
Modelo administrativo• 5 TB de almacenamiento gratuito ainvestigadores de la Universidad de Texas• Estructura de costos an...
Data@TACC• Weijia Xu• Christopher Jordan• David Walling• Tomislav Urban• Siva Kulaskerian
Upcoming SlideShare
Loading in …5
×

Maria esteva

578 views

Published on

  • Be the first to comment

  • Be the first to like this

Maria esteva

  1. 1. Maria Esteva, Texas Advanced ComputingCenter, University of Texas at AustinPANEL
  2. 2. Cyberinfrastructura para laadministración de datos deinvestigaciónMaria Esteva, Texas Advanced ComputingCenter, University of Texas at Austin2EieMayo 2013, Cali, Colombia
  3. 3. Datos & investigación• Ciencia intensiva dedatos– Teoría, experimentos, ysimulaciones en elcontexto de datos masivos• Datos sustentables– Documentados, estables,auténticos• Datos para diseminarconocimientos, citar, yreutilizar
  4. 4. Formación de colecciones• Proyectos de investigación complejos y en evoluciónconstante• Tecnología y conocimientos cambian continuamente• Fondos para investigación inestables• Las colecciones son mas vulnerables durante el procesode investigación• Arquitectura y funcionalidades de una colecciónpueden involucrar a varias tecnologías
  5. 5. Perspectivas• La curación de datos tiene como temacentral el problema que trata lainvestigación• Enfoque desde las ciencias de la información• Enfoque desde la infraestructura– Considerar la infraestructura y servicios desde laplanificación del proyecto de investigación y a travésdel ciclo de vida del proyecto
  6. 6. Infraestructura de datos @TACC• Equipo multidisciplinario• Corral• 6 Petabits de disco en línea• Sistema de archivo paraleloLustre• Transferencia de datos 1 -10GB/seg• Acceso Web• Flexibilidad deconfiguración• Librerías de código abierto• 24/7 seguridad ymantenimiento de lossistemas
  7. 7. Bases de datos• Bases de datosrelacionales:MySQL, PostgreSQL, SQL Server– Pecan Street Project• ARK y Specify• GIS (Sistema deinformacióngeográfica)– FASTI– Instituto deArqueología Clásica
  8. 8. Flexibilidad• Centro para la Investigación del Espacio (CSR)– Almacenamiento de datos provenientes de satélites,radares y sensores– Terremoto de Haití – 2010– El repositorio de datos de CSR fue transformado en unrepositorio web para compartir datos con los rescatistas.
  9. 9. Multiples posibilidades• Gestión de datos durante el proyecto de investigación• Almacenamiento temporario de datos para procesoscomputacionales• Acceso a colecciones de investigación• Archivo oscuro• El investigador es el curador• El equipo de TACC ofrece e implementa soluciones técnicas alproceso de curación y colabora en laorganización, estandarización y acceso de datos
  10. 10. Implementación de colecciones• TACC administra elacceso a lossistemas, instala losservidores/bases dedatos/librerías ydependencias.• Los usuarios tienenacceso a su código• Triage de colecciones– ICA, 5 petabytes dedatos desorganizados• Usuarios de distintosdominios• Usuarios con distintosniveles deconocimientos técnicos
  11. 11. Flujos de trabajo– Diferentes flujos de datos– Transición sin fisuras entresistemas dealmacenamiento y deanálisis.
  12. 12. Metadatos e integración
  13. 13. Acceso• Acceso web abierto alpublico• Acceso cerrado duranteel periodo de embargo• WebDav• Protegido porcontraseña• Acceso restringido alequipo de investigación• Desde los sistemas devisualización de TACC
  14. 14. Preservación• iRODS: bróker de archivosdistribuidos• Replica de archivos enRanch, un archivo decinta y replicacióngeográfica• Seguridad ymantenimiento• Chequeo deautenticidad de los datos• Captura automática demetadatos técnicos• Perspectiva sobre lo que
  15. 15. Modelo administrativo• 5 TB de almacenamiento gratuito ainvestigadores de la Universidad de Texas• Estructura de costos anual, basada enhonorarios del staff– Consultoría, curación de datos, bases dedatos y aplicaciones web• Funciona como archivo oscuro paracostear hardware• Participamos en subsidios deinvestigación
  16. 16. Data@TACC• Weijia Xu• Christopher Jordan• David Walling• Tomislav Urban• Siva Kulaskerian

×