• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Apresentação GT - Digital Preservation
 

Apresentação GT - Digital Preservation

on

  • 324 views

Apresentação geral do GT - Digital Preservarion, em 01 de setembro de 2011, na Escola de Redes da RNP, no Rio de Janeiro.

Apresentação geral do GT - Digital Preservarion, em 01 de setembro de 2011, na Escola de Redes da RNP, no Rio de Janeiro.

Statistics

Views

Total Views
324
Views on SlideShare
324
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Apresentação GT - Digital Preservation Apresentação GT - Digital Preservation Presentation Transcript

    • GT Digital PreservationRio de JaneiroSetembro de 2011
    • Roteiro ● Motivação ● Serviço proposto ● Modelo de replicação ● Implementação e arquitetura do sistema ● Protótipo no PlanetLab ● Conclusão
    • MotivaçãoImportância dos dados digitais ● Nossa herança cultural tem sido preservada em muitos materiais diferentes, incluindo rocha, couro, seda, papel e outros ● Hoje uma quantidade considerável de informação está sendo produzida em formato digital ● Curiosamente o meio digital é mais vulnerável a deterioração que os meios convencionais
    • MotivaçãoPreservação digital ● Boa parte das instituições tem grande dificuldade para preservar seus dados ● Dificuldades principais: ● Custos com hardware e infra-estrutura ● Ausência de pessoal especializado ● O volume de informação armazenada cresce constantemente
    • MotivaçãoPreservação digital ● Redes de compartilhamento de arquivos Peer- to-Peer não atendem os requisitos de preservação digital pois previligiam conteúdo popular ● Nuvens computacionais não oferecem as garantias de longo prazo necessárias ● Além de considerar as falhas de hardware e software é necessário considerar falhas organizacionais e humanas
    • Serviço propostoObjetivo Oferecer um sistema de arquivamento digital baseado em armazenamento distribuído garantindo preservação de dados a baixo custo por períodos de tempo indefinidamente longos
    • Serviço propostoAlgumas considerações importantes ● O sistema é baseado no modelo de federação ● Facilidade de adesão é importante ● Os dados são imutáveis ● Os servidores de armazenamento considerados são tipicamente PCs com arrays de disco SATA ● Desempenho para recuperação dos dados não é uma preocupação ● Heterogeneidade é desejável
    • Serviço propostoAlgumas considerações importantes ● O sistema é baseado no modelo de federação ● Facilidade de adesão é importante ● Os dados são imutáveis ● Os servidores de armazenamento considerados são tipicamente PCs com arrays de disco SATA ● Desempenho para recuperação dos dados não é uma preocupação ● Heterogeneidade é desejável
    • Serviço propostoRequisitos para implementação ● O sistema deve ser o menos intrusivo possível ● Evitar sobrecargas, especialmente em disco ● Utilização de ferramentas e protocolos com implementações seguras e amplamente disponíveis ● Instalável em uma grande variedade de plataformas
    • O ModeloModelo de replicação ● Conjunto de repositórios (computadores executando o sistema) distribuídos geograficamente ● Repositórios podem ser desde servidores de alta-disponibilidade instalados em centros de dados até desktops comuns ● A unidade de preservação é um item ou objeto digital
    • O ModeloDefinições do modelo ● Uma métrica de confiabilidade é associada a cada repositório ● Cada item é armazenado com uma confiabilidade desejada que reflete a importância do item ● Para atender a confiabilidade desejada para um item, réplicas são criadas nos repositórios
    • O Modelo●1 - ((1-0.99) * (1-0.95) * (1-0.85)) = 99.993%●1 - ((1-0.95) * (1-0.95) * (1-0.85) * (1-0.75)) = 99.991%
    • AuditoriaO processo de auditoria ● Réplicas podem ser perdidas durante o tempo ● É necessário verificar periodicamente a existência destas réplicas ● Quanto maior o número de auditorias maior a confiabilidade obtida ● Entretanto esse intervalo de tempo não pode ser pequeno
    • Implementação do ProtótipoImplementação ● Repositórios são PC rodando alguma distribuição Linux ● Uso de ferramentas padrão do sistema ● Bash scripts, linguagem C e Java ● Software Livre GPL
    • Arquitetura do protótipo
    • ImplementaçãoCamada de Armazenamento ● Responsável pelo armazenamento das réplicas dos objetos digitais ● São implementadas as operações de transferência de objetos digitais entre repositórios (replicação) e de verificação periódica da integridade do conteúdo das réplicas ● Secure Shell (SSH) e Rsync
    • ImplementaçãoCamada de Gerenciamento ● Responsável por gerenciar os objetos do repositório para garantir os níveis de confiabilidade ● Inserção, auditoria, recuperação e consulta de objetos
    • ImplementaçãoEstratégia para seleção de réplicas ● Escolhemos aleatoriamente um conjunto de repositórios candidatos a armazenar as réplicas de um determinado item ● Para este conjunto de repositórios, calculamos o intervalo de auditoria necessário para atingir a confiabilidade desejada ● O intervalo de auditoria mínimo é configurado pelo administrador local do sistema
    • Simulação ● Espaço total: 200TB ● Utilização de 99% do espaço ● Total de ítens: 58.000 ● 48.437.231MB (48TB)N. rep. tam(MB) conf(%) var.uniform(%) min.audit(dias) var.uniform(%) 50 1000000 80 10 30 10 50 1000000 90 10 30 10 50 1000000 80 10 45 10 50 1000000 90 10 45 10
    • 100 anos sem auditoria
    • 100 anos com auditoriaImplementação
    • 500 anos com auditoria
    • 500 anos sem auditoria Tudo foi perdido!
    • ImplementaçãoCamada da Interface ● A padronização da comunicação entre as aplicações e a camada de gerenciamento é realizada por um serviço web ● Web Service (SOAP, WSDL, Java) ● Inserir, consultar e recuperar
    • ImplementaçãoCamada de Aplicações ● Diversas aplicações podem necessitar ou desejar um serviço de preservação ● Usuário pode inserir, consultar e recuperar seus arquivos ● Escolhemos o Dspace (sistema de biblioteca digitais utilizado por mais de 1000 instituições)
    • ImplementaçãoCamada de Aplicações ● Diversas aplicações podem necessitar ou desejar um serviço de preservação ● Usuário pode inserir, consultar e recuperar seus arquivos ● Escolhemos o Dspace (sistema de biblioteca digitais utilizado por mais de 1000 instituições)
    • Protótipo no PlanetlabO Ambiente ● Rede formada por milhares de computadores espalhados pelo planeta ● Nodos do slice estão quase sempre sobrecarregados ● Em muitos casos podemos dizer que as condições oferecidas são piores que a realidade
    • Protótipo no PlanetlabAvaliação ● A implantação no Plab obrigou a refinar a implementação tornando o sistema mais robusto ● Devemos ampliar o número de repositórios no futuro próximo ● E utilizar essa rede para preservar o acervo dos 100 anos da UFPR
    • Protótipo no PlanetlabAvaliação ● Principais funcionalidades estão implementadas ● As decisões iniciais de projetos se mostraram acertadas ● Existe um bom número de interessados em utilizar o sistema
    • Protótipo no PlanetlabImplementaçãoAvaliação ● Principais funcionalidades estão implementadas ● As decisões iniciais de projetos se mostraram acertadas ● Dissertações e TCC também foram produzidos ● Existe um bom número de interessados em utilizar o sistema
    • Protótipo no PlanetlabPara uma nova fase ● Estimar a confiabilidade de cada repositório ● Compartilhamento das chaves SSH ● Sistema de Indexação ● Controle do consumo de recursos ● Ferramentas para operação do serviço ● O modelo de governança a ser adotado
    • Conclusão e Trabalhos Futuros ● O problema atacado é relevante ● O modelo parece adequado e o protótipo mostra a viabilidade prática do serviço ● Integrar mais nodos do PlanetLab e também ● Fase de “acabamento” do projeto: versão final da documentação, novo site, etc.