Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos POSIX

1,121 views

Published on

Apresentação da defesa de metsrado de Jonhnny Weslley.

Published in: Technology
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,121
On SlideShare
0
From Embeds
0
Number of Embeds
8
Actions
Shares
0
Downloads
11
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos POSIX

  1. 1. Processamento Paralelo de Grandes Quantidades de Dados sobre um Sistema de Arquivos Distribuído POSIX Jonhnny Weslley Orientador: Francisco Brasileiro Laboratório de Sistemas Distribuídos Programa de Pós-Graduação em Ciência da Computação Universidade Federal de Campina Grande Maio / 2010
  2. 2. Agenda ● Introdução ● Estado da Arte ● Beehive File System ● Heurísticas para alocação de arquivos ● Avaliação ● Conclusão
  3. 3. Dados
  4. 4. Processamento de dados
  5. 5. Por que?
  6. 6. Insights
  7. 7. Barateamento e o aumento da capacidade de armazenamento dos discos
  8. 8. Processamento de grandes quantidades de dados
  9. 9. Processamento paralelo de grandes quantidades de dados
  10. 10. Clusters Image by rogersmith on flickr.com
  11. 11. Clusters ● Custos associados ● aquisição ● manutenção Image by rogersmith on flickr.com
  12. 12. Computação na nuvem Image by jillclardy on Flickr.com
  13. 13. Computação na nuvem ● Transferência dos dados ● Confidencialidade e privacidade dos dados Image by jillclardy on Flickr.com
  14. 14. Por que pagar por recursos externos, se é possível realizar o processamento dos dados, ou pelo menos parte dele, nas estações de trabalho da rede local?
  15. 15. Beehive File System ● Agrega espaço ocioso nas estações de trabalho de uma rede local ● Sistema de arquivos distribuído de uso geral ● POSIX compliant
  16. 16. Beehive File System ● Agrega espaço ocioso nas estações de trabalho de uma rede local ● Sistema de arquivos distribuído de uso geral ● POSIX compliant ● Distribuição dos dados
  17. 17. Problema Recursos não dedicados
  18. 18. Objetivos ● Aplicações de uso intensivo de dados usando sistema de arquivos distribuído POSIX ● Sistema de arquivos POSIX multi-funcional ● Controlar a intrusividade Image by denial_land on Flickr.com
  19. 19. Status quo ● Sistemas de arquivos em clusters ● Google File System ● Lustre ● Ceph ● Sistemas de arquivos oportunistas ● Freeloader ● BitDew
  20. 20. Beehive File System
  21. 21. Arquitetura
  22. 22. Tolerância a falhas ● Replicação de arquivos ● Replicação de metadados
  23. 23. Replicação de arquivos
  24. 24. Replicação de metadados ● Falhas no servidor de metadados ● Transientes ● Permanentes ● Integridade do sistema
  25. 25. Metadados ● Nós-i ● Estruturas de dados do sistema ● Atributos estendidos
  26. 26. Solução
  27. 27. Heurísticas para alocação de arquivos
  28. 28. Heurísticas para alocação de arquivos baseadas em dados históricos sobre a disponibilidade da máquinas.
  29. 29. Heurísticas para alocação de arquivos ● Replication All ● Equalizer ● MaxAvail ● EqMaxAvail ● MeanAvail ● EqMeanAvail
  30. 30. Avaliação
  31. 31. Modelo do sistema ● Sistema de arquivos ● A aplicação e os dados de entrada ● Disponibilidade ● Alocação de arquivos ● Métricas de desempenho ● tempo de execução das aplicações ● quantidade de armazenamento
  32. 32. Modelo simulado ● Trace SDSC* ● Estações de trabalho conectadas por uma LAN ● 244 máquinas ● Período de 14 dias ● Imagem do sistema de arquivos ● 1000 arquivos ● Distribuição uniforme entre 500MiB e 2GiB ● Fator de impacto de leituras remotas é 4.87. *Characterizing and evaluating desktop grids: An empirical study.
  33. 33. Modelo simulado ● Workload das aplicações ● 300 aplicações Bag-of-Tasks ● Cada aplicação possui tarefas seguindo uma distribuição uniforme entre 3 e 10
  34. 34. Resultados Image by kevinzhengli on Flickr.com
  35. 35. Tempo de execução das aplicações
  36. 36. Resultados ● Tempo de execução das aplicações ● Quantidade de armazenamento
  37. 37. Conclusão ● Aplicações de uso intensivo de dados usando sistema de arquivos distribuído POSIX ● Sistema de arquivos POSIX multi-funcional ● Controle da intrusividade ● Heurísticas para alocação de arquivos
  38. 38. Trabalhos Futuros ● Técnicas de virtualização ● Explorar multi-core
  39. 39. Questões ?
  40. 40. Jonhnny Weslley jw@jonhnnyweslley.net @jweslley
  41. 41. EOF

×