Processamento Paralelo de Grandes Quantidades de Dados sobre um  Sistema de Arquivos POSIX
Upcoming SlideShare
Loading in...5
×
 

Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos POSIX

on

  • 1,293 views

Apresentação da defesa de metsrado de Jonhnny Weslley.

Apresentação da defesa de metsrado de Jonhnny Weslley.

Statistics

Views

Total Views
1,293
Views on SlideShare
1,288
Embed Views
5

Actions

Likes
0
Downloads
10
Comments
0

1 Embed 5

http://www.slideshare.net 5

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Processamento Paralelo de Grandes Quantidades de Dados sobre um  Sistema de Arquivos POSIX Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos POSIX Presentation Transcript

  • Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos Distribuído POSIX Jonhnny Weslley Orientador: Francisco Brasileiro Laboratório de Sistemas Distribuídos Programa de Pós-Graduação em Ciência da Computação Universidade Federal de Campina Grande Maio / 2010
  • Agenda ● Introdução ● Estado da Arte ● Beehive File System ● Heurísticas para alocação de arquivos ● Avaliação ● Conclusão
  • Dados
  • Processamento de dados
  • Por que?
  • Insights
  • Barateamento e o aumento da capacidade de armazenamento dos discos
  • Processamento de grandes quantidades de dados
  • Processamento paralelo de grandes quantidades de dados
  • Clusters Image by rogersmith on flickr.com
  • Clusters ● Custos associados ● aquisição ● manutenção Image by rogersmith on flickr.com
  • Computação na nuvem Image by jillclardy on Flickr.com
  • Computação na nuvem ● Transferência dos dados ● Confidencialidade e privacidade dos dados Image by jillclardy on Flickr.com
  • Por que pagar por recursos externos, se é possível realizar o processamento dos dados, ou pelo menos parte dele, nas estações de trabalho da rede local?
  • Beehive File System ● Agrega espaço ocioso nas estações de trabalho de uma rede local ● Sistema de arquivos distribuído de uso geral ● POSIX compliant
  • Beehive File System ● Agrega espaço ocioso nas estações de trabalho de uma rede local ● Sistema de arquivos distribuído de uso geral ● POSIX compliant ● Distribuição dos dados
  • Problema Recursos não dedicados
  • Objetivos ● Aplicações de uso intensivo de dados usando sistema de arquivos distribuído POSIX ● Sistema de arquivos POSIX multi-funcional ● Controlar a intrusividade Image by denial_land on Flickr.com
  • Status quo ● Sistemas de arquivos em clusters ● Google File System ● Lustre ● Ceph ● Sistemas de arquivos oportunistas ● Freeloader ● BitDew
  • Beehive File System
  • Arquitetura
  • Tolerância a falhas ● Replicação de arquivos ● Replicação de metadados
  • Replicação de arquivos
  • Replicação de metadados ● Falhas no servidor de metadados ● Transientes ● Permanentes ● Integridade do sistema
  • Metadados ● Nós-i ● Estruturas de dados do sistema ● Atributos estendidos
  • Solução
  • Heurísticas para alocação de arquivos
  • Heurísticas para alocação de arquivos baseadas em dados históricos sobre a disponibilidade da máquinas.
  • Heurísticas para alocação de arquivos ● Replication All ● Equalizer ● MaxAvail ● EqMaxAvail ● MeanAvail ● EqMeanAvail
  • Avaliação
  • Modelo do sistema ● Sistema de arquivos ● A aplicação e os dados de entrada ● Disponibilidade ● Alocação de arquivos ● Métricas de desempenho ● tempo de execução das aplicações ● quantidade de armazenamento
  • Modelo simulado ● Trace SDSC* ● Estações de trabalho conectadas por uma LAN ● 244 máquinas ● Período de 14 dias ● Imagem do sistema de arquivos ● 1000 arquivos ● Distribuição uniforme entre 500MiB e 2GiB ● Fator de impacto de leituras remotas é 4.87. *Characterizing and evaluating desktop grids: An empirical study.
  • Modelo simulado ● Workload das aplicações ● 300 aplicações Bag-of-Tasks ● Cada aplicação possui tarefas seguindo uma distribuição uniforme entre 3 e 10
  • Resultados Image by kevinzhengli on Flickr.com
  • Tempo de execução das aplicações
  • Resultados ● Tempo de execução das aplicações ● Quantidade de armazenamento
  • Conclusão ● Aplicações de uso intensivo de dados usando sistema de arquivos distribuído POSIX ● Sistema de arquivos POSIX multi-funcional ● Controle da intrusividade ● Heurísticas para alocação de arquivos
  • Trabalhos Futuros ● Técnicas de virtualização ● Explorar multi-core
  • Questões ?
  • Jonhnny Weslley jw@jonhnnyweslley.net @jweslley
  • EOF